当前位置：首页 > 科技资讯 > 正文

WorldVLA：融合视觉与动作，推动AI理解世界

如果说视觉让AI看见世界，动作让AI改变世界，那么——

WorldVLA正在引领AI理解世界的革命。

顾名思义，WorldVLA是一个将视觉语言动作模型（VLA）与世界模型（WM）完美融合的框架，由阿里巴巴达摩院、湖畔实验室和浙江大学携手打造。

WorldVLA：融合视觉与动作，推动AI理解世界 WorldVLA 视觉语言动作模型自回归动作世界模型 AI理解第1张

在这一框架下，

世界模型通过融合对动作与图像的理解来预测未来图像，旨在探索环境的潜在物理规律，以提升动作生成的精准度；

动作模型则基于图像观测生成后续动作，不仅助力视觉理解，还反向推动世界模型的视觉生成能力。

实验数据显示，WorldVLA的表现显著优于独立的动作模型与世界模型，充分展现了二者之间的协同增效。

WorldVLA：融合视觉与动作，推动AI理解世界 WorldVLA 视觉语言动作模型自回归动作世界模型 AI理解第2张

接下来，让我们深入探索。

统一VLA与世界模型

目前，尽管VLA和世界模型各自发展，但其功能上的局限性已成为制约发展的关键瓶颈：

VLA模型：基于预训练多模态大语言模型（MLLM）构建，虽具备跨机器人任务泛化能力，但仅将动作视为输出，未深度整合为输入进行分析，缺乏对动作的全面理解。

世界模型：能基于当前观测和动作预测未来视觉状态，理解视觉信息与行为动态，但无法直接生成动作，在需明确动作规划的场景中应用受限。

为了破解上述难题，研究团队推出了WorldVLA——一种用于统一动作与图像理解和生成的自回归动作世界模型。

WorldVLA：融合视觉与动作，推动AI理解世界 WorldVLA 视觉语言动作模型自回归动作世界模型 AI理解第3张

团队基于Chameleon模型进行初始化，让WorldVLA使用三套独立的分词器（tokenizer）对图像、文本和动作进行编码。

图像分词器采用VQ-GAN模型（一种结合向量量化与生成对抗网络的图像生成模型），并针对特定图像区域（如人脸、显著物体等）引入了感知损失优化。

值得一提的是，该分词器的压缩比为16，码本大小为8192。对于256×256的图像，会生成256个token；对于512×512的图像，则生成1024个token。

动作分词器将连续的机器人动作的每个维度离散化为256个区间，区间宽度根据训练数据的范围确定。动作由7个token表示，包括3个相对位置、3个相对角度，以及1个绝对夹爪状态。

WorldVLA：融合视觉与动作，推动AI理解世界 WorldVLA 视觉语言动作模型自回归动作世界模型 AI理解第4张

文本分词器采用训练好的BPE分词器，词表大小为65536，其中包括8192个图像token和256个动作token。

所有文本、动作和图像都被离散化为token，并以自回归方式进行训练。

...（内容略）...

本文由主机测评网于2026-05-08发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260543578.html