当前位置：首页 > 科技资讯 > 正文

语义世界模型：重塑未来决策的智能蓝图

探讨未来：机器人是否真正需要精确的世界模型画面？来自华盛顿大学与索尼AI的研究者在最新论文中提出了这一疑问。

语义世界模型：重塑未来决策的智能蓝图语义世界模型视觉问答 VLM 机器人控制第1张

世界模型，作为AI预测未来的学习工具，通过大数据洞察世界规律，预测未来事件。这种能力对于AI制定明智且稳健的行动策略至关重要。然而，现有的世界模型大多专注于生成逼真的图像，却未必适合决策。

传统方法尝试仅建模与任务相关的信息，但这类方法依赖额外假设，如奖励函数或已知因素，限制了灵活性。那么，如果像素信息非决策所必需，真正需要的是什么呢？

新论文提出：预测未来结果的语义信息已足够。世界模型应聚焦于任务相关对象及其交互，而非原始视觉帧。例如，机械臂是否靠近目标？红色方块是否倾倒？蓝色球是否被拾起？

这些语义信息被建模为未来视觉问答（VQA）问题，即任何目标结果可表达为一系列“是/否”问题。换言之，世界建模可重新定义为未来结果的VQA问题。

视觉语言模型（VLM）具备强大的视觉问答能力，但缺乏预测未来结果的能力。新论文提出的“语义世界模型（SWM）”弥补了这一不足。SWM是具备泛化能力的世界模型，以动作条件的视觉语言模型形式存在，能回答关于未来动作语义效果的问题。

语义世界模型：重塑未来决策的智能蓝图语义世界模型视觉问答 VLM 机器人控制第2张

SWM在给定当前观测与动作序列情况下，回答关于未来的自然语言问题。它能结合预训练的VLM与任务相关的问答集，灵活规划动作，实现未来结果的优化。

SWM在LangTable与OGBench仿真环境中展现出色表现，准确回答未来问题，并能泛化到新场景。结合采样与梯度优化技术，SWM实现显著策略改进，解决多种机器人任务。

语义世界模型概览

下图展示了SWM的概况。SWM是视觉语言模型，经调整后能回答由动作决定的未来问题。通过一系列问题与期望答案，其预测转化为规划信号，优化动作序列。

语义世界模型：重塑未来决策的智能蓝图语义世界模型视觉问答 VLM 机器人控制第3张

为训练能回答未来问题的世界模型，生成了状态-动作-问题-答案（SAQA）数据集。图展示了数据集中状态与多问题与答案的配对。

语义世界模型：重塑未来决策的智能蓝图语义世界模型视觉问答 VLM 机器人控制第4张

SWM能在给定动作条件下回答未来事件问题。基于大型预训练VLM，迁移至机器人任务。SWM架构基于PaliGemma视觉语言模型。

模型包含三个核心组件：自回归语言模型、视觉编码器及投影矩阵。

语义世界模型：重塑未来决策的智能蓝图语义世界模型视觉问答 VLM 机器人控制第5张

SWM作为有效决策模型？

在LangTable与OGBench上评估SWM规划能力。结果显示，SWM结合采样规划方法取得接近完美的成功率。

语义世界模型：重塑未来决策的智能蓝图语义世界模型视觉问答 VLM 机器人控制第6张

次优数据的影响？

次优数据训练提高准确率，表明其在训练SWM方面的有效性。

语义世界模型：重塑未来决策的智能蓝图语义世界模型视觉问答 VLM 机器人控制第7张

本文由主机测评网于2026-05-07发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260543460.html