探讨未来:机器人是否真正需要精确的世界模型画面?来自华盛顿大学与索尼AI的研究者在最新论文中提出了这一疑问。
世界模型,作为AI预测未来的学习工具,通过大数据洞察世界规律,预测未来事件。这种能力对于AI制定明智且稳健的行动策略至关重要。然而,现有的世界模型大多专注于生成逼真的图像,却未必适合决策。
传统方法尝试仅建模与任务相关的信息,但这类方法依赖额外假设,如奖励函数或已知因素,限制了灵活性。那么,如果像素信息非决策所必需,真正需要的是什么呢?
新论文提出:预测未来结果的语义信息已足够。世界模型应聚焦于任务相关对象及其交互,而非原始视觉帧。例如,机械臂是否靠近目标?红色方块是否倾倒?蓝色球是否被拾起?
这些语义信息被建模为未来视觉问答(VQA)问题,即任何目标结果可表达为一系列“是/否”问题。换言之,世界建模可重新定义为未来结果的VQA问题。
视觉语言模型(VLM)具备强大的视觉问答能力,但缺乏预测未来结果的能力。新论文提出的“语义世界模型(SWM)”弥补了这一不足。SWM是具备泛化能力的世界模型,以动作条件的视觉语言模型形式存在,能回答关于未来动作语义效果的问题。
SWM在给定当前观测与动作序列情况下,回答关于未来的自然语言问题。它能结合预训练的VLM与任务相关的问答集,灵活规划动作,实现未来结果的优化。
SWM在LangTable与OGBench仿真环境中展现出色表现,准确回答未来问题,并能泛化到新场景。结合采样与梯度优化技术,SWM实现显著策略改进,解决多种机器人任务。
下图展示了SWM的概况。SWM是视觉语言模型,经调整后能回答由动作决定的未来问题。通过一系列问题与期望答案,其预测转化为规划信号,优化动作序列。
为训练能回答未来问题的世界模型,生成了状态-动作-问题-答案(SAQA)数据集。图展示了数据集中状态与多问题与答案的配对。
SWM能在给定动作条件下回答未来事件问题。基于大型预训练VLM,迁移至机器人任务。SWM架构基于PaliGemma视觉语言模型。
模型包含三个核心组件:自回归语言模型、视觉编码器及投影矩阵。
SWM作为有效决策模型?
在LangTable与OGBench上评估SWM规划能力。结果显示,SWM结合采样规划方法取得接近完美的成功率。
次优数据的影响?
次优数据训练提高准确率,表明其在训练SWM方面的有效性。
本文由主机测评网于2026-05-07发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260543460.html