如果说视觉让AI看见世界,动作让AI改变世界,那么——
WorldVLA正在引领AI理解世界的革命。
顾名思义,WorldVLA是一个将视觉语言动作模型(VLA)与世界模型(WM)完美融合的框架,由阿里巴巴达摩院、湖畔实验室和浙江大学携手打造。
在这一框架下,
世界模型通过融合对动作与图像的理解来预测未来图像,旨在探索环境的潜在物理规律,以提升动作生成的精准度;
动作模型则基于图像观测生成后续动作,不仅助力视觉理解,还反向推动世界模型的视觉生成能力。
实验数据显示,WorldVLA的表现显著优于独立的动作模型与世界模型,充分展现了二者之间的协同增效。
接下来,让我们深入探索。
目前,尽管VLA和世界模型各自发展,但其功能上的局限性已成为制约发展的关键瓶颈:
VLA模型:基于预训练多模态大语言模型(MLLM)构建,虽具备跨机器人任务泛化能力,但仅将动作视为输出,未深度整合为输入进行分析,缺乏对动作的全面理解。
世界模型:能基于当前观测和动作预测未来视觉状态,理解视觉信息与行为动态,但无法直接生成动作,在需明确动作规划的场景中应用受限。
为了破解上述难题,研究团队推出了WorldVLA——一种用于统一动作与图像理解和生成的自回归动作世界模型。
团队基于Chameleon模型进行初始化,让WorldVLA使用三套独立的分词器(tokenizer) 对图像、文本和动作进行编码。
图像分词器采用VQ-GAN模型(一种结合向量量化与生成对抗网络的图像生成模型),并针对特定图像区域(如人脸、显著物体等)引入了感知损失优化。
值得一提的是,该分词器的压缩比为16,码本大小为8192。对于256×256的图像,会生成256个token;对于512×512的图像,则生成1024个token。
动作分词器将连续的机器人动作的每个维度离散化为256个区间,区间宽度根据训练数据的范围确定。动作由7个token表示,包括3个相对位置、3个相对角度,以及1个绝对夹爪状态。
文本分词器采用训练好的BPE分词器,词表大小为65536,其中包括8192个图像token和256个动作token。
所有文本、动作和图像都被离散化为token,并以自回归方式进行训练。
...(内容略)...
本文由主机测评网于2026-05-08发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260543578.html