当前位置:首页 > 科技资讯 > 正文

语义世界模型:重塑未来决策的智能蓝图

探讨未来:机器人是否真正需要精确的世界模型画面?来自华盛顿大学与索尼AI的研究者在最新论文中提出了这一疑问。

语义世界模型:重塑未来决策的智能蓝图 语义世界模型 视觉问答 VLM 机器人控制 第1张

世界模型,作为AI预测未来的学习工具,通过大数据洞察世界规律,预测未来事件。这种能力对于AI制定明智且稳健的行动策略至关重要。然而,现有的世界模型大多专注于生成逼真的图像,却未必适合决策。

传统方法尝试仅建模与任务相关的信息,但这类方法依赖额外假设,如奖励函数或已知因素,限制了灵活性。那么,如果像素信息非决策所必需,真正需要的是什么呢?

新论文提出:预测未来结果的语义信息已足够。世界模型应聚焦于任务相关对象及其交互,而非原始视觉帧。例如,机械臂是否靠近目标?红色方块是否倾倒?蓝色球是否被拾起?

这些语义信息被建模为未来视觉问答(VQA)问题,即任何目标结果可表达为一系列“是/否”问题。换言之,世界建模可重新定义为未来结果的VQA问题。

视觉语言模型(VLM)具备强大的视觉问答能力,但缺乏预测未来结果的能力。新论文提出的“语义世界模型(SWM)”弥补了这一不足。SWM是具备泛化能力的世界模型,以动作条件的视觉语言模型形式存在,能回答关于未来动作语义效果的问题。

语义世界模型:重塑未来决策的智能蓝图 语义世界模型 视觉问答 VLM 机器人控制 第2张

SWM在给定当前观测与动作序列情况下,回答关于未来的自然语言问题。它能结合预训练的VLM与任务相关的问答集,灵活规划动作,实现未来结果的优化。

SWM在LangTable与OGBench仿真环境中展现出色表现,准确回答未来问题,并能泛化到新场景。结合采样与梯度优化技术,SWM实现显著策略改进,解决多种机器人任务。

语义世界模型概览

下图展示了SWM的概况。SWM是视觉语言模型,经调整后能回答由动作决定的未来问题。通过一系列问题与期望答案,其预测转化为规划信号,优化动作序列。

语义世界模型:重塑未来决策的智能蓝图 语义世界模型 视觉问答 VLM 机器人控制 第3张

数据集生成

为训练能回答未来问题的世界模型,生成了状态-动作-问题-答案(SAQA)数据集。图展示了数据集中状态与多问题与答案的配对。

语义世界模型:重塑未来决策的智能蓝图 语义世界模型 视觉问答 VLM 机器人控制 第4张

架构概览

SWM能在给定动作条件下回答未来事件问题。基于大型预训练VLM,迁移至机器人任务。SWM架构基于PaliGemma视觉语言模型。

模型包含三个核心组件:自回归语言模型、视觉编码器及投影矩阵。

语义世界模型:重塑未来决策的智能蓝图 语义世界模型 视觉问答 VLM 机器人控制 第5张

实验结果

SWM作为有效决策模型?

在LangTable与OGBench上评估SWM规划能力。结果显示,SWM结合采样规划方法取得接近完美的成功率。

语义世界模型:重塑未来决策的智能蓝图 语义世界模型 视觉问答 VLM 机器人控制 第6张

次优数据的影响?

次优数据训练提高准确率,表明其在训练SWM方面的有效性。

语义世界模型:重塑未来决策的智能蓝图 语义世界模型 视觉问答 VLM 机器人控制 第7张