当前位置:首页 > 科技资讯 > 正文

WorldVLA:融合视觉与动作,推动AI理解世界

如果说视觉让AI看见世界,动作让AI改变世界,那么——

WorldVLA正在引领AI理解世界的革命。

顾名思义,WorldVLA是一个将视觉语言动作模型(VLA)与世界模型(WM)完美融合的框架,由阿里巴巴达摩院、湖畔实验室和浙江大学携手打造。

WorldVLA:融合视觉与动作,推动AI理解世界 WorldVLA 视觉语言动作模型 自回归动作世界模型 AI理解 第1张

在这一框架下,

世界模型通过融合对动作与图像的理解来预测未来图像,旨在探索环境的潜在物理规律,以提升动作生成的精准度;

动作模型则基于图像观测生成后续动作,不仅助力视觉理解,还反向推动世界模型的视觉生成能力。

实验数据显示,WorldVLA的表现显著优于独立的动作模型与世界模型,充分展现了二者之间的协同增效。

WorldVLA:融合视觉与动作,推动AI理解世界 WorldVLA 视觉语言动作模型 自回归动作世界模型 AI理解 第2张

接下来,让我们深入探索。

统一VLA与世界模型

目前,尽管VLA和世界模型各自发展,但其功能上的局限性已成为制约发展的关键瓶颈:

VLA模型:基于预训练多模态大语言模型(MLLM)构建,虽具备跨机器人任务泛化能力,但仅将动作视为输出,未深度整合为输入进行分析,缺乏对动作的全面理解。

世界模型:能基于当前观测和动作预测未来视觉状态,理解视觉信息与行为动态,但无法直接生成动作,在需明确动作规划的场景中应用受限。

为了破解上述难题,研究团队推出了WorldVLA——一种用于统一动作与图像理解和生成的自回归动作世界模型

WorldVLA:融合视觉与动作,推动AI理解世界 WorldVLA 视觉语言动作模型 自回归动作世界模型 AI理解 第3张

团队基于Chameleon模型进行初始化,让WorldVLA使用三套独立的分词器(tokenizer) 对图像、文本和动作进行编码。

图像分词器采用VQ-GAN模型(一种结合向量量化与生成对抗网络的图像生成模型),并针对特定图像区域(如人脸、显著物体等)引入了感知损失优化。

值得一提的是,该分词器的压缩比为16,码本大小为8192。对于256×256的图像,会生成256个token;对于512×512的图像,则生成1024个token。

动作分词器将连续的机器人动作的每个维度离散化为256个区间,区间宽度根据训练数据的范围确定。动作由7个token表示,包括3个相对位置、3个相对角度,以及1个绝对夹爪状态。

WorldVLA:融合视觉与动作,推动AI理解世界 WorldVLA 视觉语言动作模型 自回归动作世界模型 AI理解 第4张

文本分词器采用训练好的BPE分词器,词表大小为65536,其中包括8192个图像token和256个动作token。

所有文本、动作和图像都被离散化为token,并以自回归方式进行训练。

...(内容略)...