当前位置:首页 > 科技资讯 > 正文

语义世界模型:革新机器人规划的视觉问答范式

机器人是否必须构建精确的未来视觉画面?华盛顿大学与索尼AI的研究者在最新论文中对此提出深刻疑问。

语义世界模型:革新机器人规划的视觉问答范式 语义世界模型 视觉问答 机器人规划 视觉语言模型 第1张

世界模型作为AI“预见未来”的核心技术,通过从海量数据中学习环境动态,基于当前状态预测后续事件。这一能力至关重要,使AI能够进行前瞻性规划,制定更智能、更鲁棒的行动方案。

实践中,世界模型形式多样,从基于状态的简化动力学模型到基于动作条件的大规模视频预测模型。然而,多数模型聚焦于“还原未来画面”,虽然能生成逼真图像,却未必适用于决策任务。原因在于:视觉逼真性可能忽略关键语义细节,例如物体间实际接触状态。

先前方法尝试仅建模“任务相关”信息,但往往依赖额外假设,如已知奖励函数或任务特定因素,限制了实际灵活性。

若像素信息非规划必需,那么行动决策真正需要什么?

本论文提出:预测未来结果的语义信息已足够。世界模型应转向捕捉任务相关对象及其交互信息,例如:“机械臂是否更接近目标?”“红色方块是否倾倒?”“蓝色球是否被拾取?”

研究将此类信息建模为关于未来的视觉问答(VQA)问题,利用任何目标结果均可用系列“是/否”问题表达的事实。换言之,世界建模问题可重构为关于未来结果的VQA问题。

现有视觉语言模型(VLM)具备成熟视觉问答能力,在世界建模中优势显著:

其一,通过大规模预训练,VLM拥有强大问答能力与广泛泛化性;

其二,VLM编码了任务与场景语义特征的先验知识。

这些优势使前沿VLM能提出任务相关问题并在静态观测中可靠回答,但缺乏未来预测能力,限制了决策应用。

为此,论文提出“语义世界模型(Semantic World Model, SWM)”。SWM是一种泛化世界模型,以动作条件视觉语言模型形式存在,可回答关于未来动作语义效果的问题。

语义世界模型:革新机器人规划的视觉问答范式 语义世界模型 视觉问答 机器人规划 视觉语言模型 第2张

论文标题:SEMANTIC WORLD MODELS

论文链接:https://arxiv.org/pdf/2510.19818

项目链接:https://weirdlabuw.github.io/swm/

与传统预测未来帧的世界模型不同,SWM在给定当前观测(图像表示)与动作序列下,回答关于未来的自然语言问题。

如图1所示,模型输入包括:当前观测、拟执行动作序列、关于未来的自然语言提问。模型通过理解动作在环境中的后果,生成相应文本回答。

语义世界模型:革新机器人规划的视觉问答范式 语义世界模型 视觉问答 机器人规划 视觉语言模型 第3张

由于SWM本质上是任务无关世界模型,它可在极低质量通用序列数据上训练,包括游戏数据和非最优数据。训练数据易于从任何(专家或非专家)语料库获取,格式为当前观测、行动、(关于未来的)问题及预期答案。

通过SWM推理未来结果,AI能在动作空间中实现灵活、开放世界的多任务规划。

当任务以自然语言描述时,系统可通过两种方式理解目标:利用预训练VLM自动解析任务意图,或由人类将任务拆解为文本化“问题—期望答案”对。获得问答集后,SWM可规划动作,以最大化未来得到期望答案的概率。

给定自然语言任务说明,可借助预训练VLM或手动分解任务为一组问题及文本预期答案。基于此,SWM用于动作规划,极有可能在未来得出预期答案。

尽管有多种规划技术可用,研究表明SWM兼容零阶基于采样方法及一阶梯度规划方法,这些方法针对预期似然目标优化。规划方法计算可行,相比常规动作选择在测试时带来显著改进,并展示了对多步骤长程问题的可扩展性。

实验方面,SWM在常用多任务仿真环境Language Table(LangTable)与OGBench上评估。结果表明:SWM能准确回答关于未来结果的问题,并泛化到新场景。SWM可与基于采样的标准规划技术及基于梯度的改进技术结合,通过测试时优化实现显著策略提升,解决各类机器人任务。

综上所述,SWM代表了一类新型世界模型,利用VLM丰富预训练知识,实现可落地、灵活且可扩展的机器人控制。

语义世界模型概览

下图2展示了语义世界模型的概况。SWM是一种视觉语言模型,经调整后能回答与未来相关问题,这些问题由用于调整模型的动作决定。通过一系列问题和期望答案,其预测可转化为规划信号,并迭代优化动作序列。

语义世界模型:革新机器人规划的视觉问答范式 语义世界模型 视觉问答 机器人规划 视觉语言模型 第4张

数据集生成

为训练能回答关于未来问题的世界模型,本文生成了状态-动作-问题-答案(SAQA)数据集。图3展示了该数据集中单独状态与多个问题和答案的配对情况。

语义世界模型:革新机器人规划的视觉问答范式 语义世界模型 视觉问答 机器人规划 视觉语言模型 第5张

架构概览

SWM是一个在给定动作条件下回答关于未来事件问题的模型。具备此能力的模型本质上是带动作条件的视觉问答模型。因此,从大型预训练视觉语言模型(VLM)出发,将其泛化能力迁移到机器人任务是自然做法。此SWM架构基于开源视觉语言模型PaliGemma。

该模型包含三个核心预训练组件:一个基于Transformer的自回归语言模型(其token嵌入大小为d_tok)、一个视觉编码器v_ϕ(其特征大小为d_img)以及一个投影矩阵

语义世界模型:革新机器人规划的视觉问答范式 语义世界模型 视觉问答 机器人规划 视觉语言模型 第6张

。PaliGemma架构建立在两个单独训练的组件之上:Gemma大语言模型和SigLIP图像编码器V_sc。W用于从Z_sc投影到Z_LLM,其中Z_sc是v_ϕ的特征空间,Z_LLM是大语言模型的输入token嵌入空间。本文使用PaliGemma的30亿参数检查点作为基础模型。

为让基础模型能就“某一特定未来(由行动产生)”回答问题,模型必须以这些行动为条件。为此,作者引入新的投影矩阵

语义世界模型:革新机器人规划的视觉问答范式 语义世界模型 视觉问答 机器人规划 视觉语言模型 第7张

,它将单个动作

语义世界模型:革新机器人规划的视觉问答范式 语义世界模型 视觉问答 机器人规划 视觉语言模型 第8张

映射到与W投影矩阵类似的潜空间Z_LLM中。

给定数据集D_SAQA中的一个元组 (S_i, a_{i:j}, Q_{S_j}, A_{S_j}),输入序列通过将图像嵌入、动作嵌入和问题token嵌入拼接而成:

语义世界模型:革新机器人规划的视觉问答范式 语义世界模型 视觉问答 机器人规划 视觉语言模型 第9张

随后,模型以端到端方式微调,通过优化标准交叉熵损失

语义世界模型:革新机器人规划的视觉问答范式 语义世界模型 视觉问答 机器人规划 视觉语言模型 第10张

来预测目标答案A_{S_j}。

此训练过程使模型能在语言空间中捕捉环境动态,从而无需显式生成像素级表征即可回答有关未来状态的问题。

实验结果

SWM是否是一个有效的决策世界模型?

首先,作者通过在LangTable和OGBench任务上将基于采样的规划方法MPPI应用于SWM模型,对SWM的规划能力进行评估。

如表2所示,可直接在语义世界模型上使用基于采样的规划方法进行规划,在两个环境中的到达和方块分离任务上都取得接近完美的成功率。

语义世界模型:革新机器人规划的视觉问答范式 语义世界模型 视觉问答 机器人规划 视觉语言模型 第11张

然而,对于大型模型,基于采样的规划方法计算成本高昂,在需要更多样本的更具挑战性任务上运行MPPI不可行。因此,对于更复杂任务,考虑场景:由基础策略生成候选轨迹,再利用SWM和基于梯度的优化细化。如图5所示,该方法能对候选轨迹细化,并相比基础策略取得显著提升。在LangTable上,SWM相比基础策略的平均性能从14.4%提升至81.6%;在OGBench上,从45.33%提升至76%。SWM在所有任务上也均优于AVD和IDQL基线,展示规划有效性。

语义世界模型:革新机器人规划的视觉问答范式 语义世界模型 视觉问答 机器人规划 视觉语言模型 第12张

SWM还通过先选择子目标,再围绕该子目标规划,展现出处理更长程任务的能力。如表1所示,在多步任务上,SWM的平均策略改进幅度达52.0%,优于AVD基线。

语义世界模型:革新机器人规划的视觉问答范式 语义世界模型 视觉问答 机器人规划 视觉语言模型 第13张

次优数据是否能提高建模性能?

从表3可见,混入次优数据比仅使用专家数据训练能提高准确率。SWM仅通过次优数据训练也能达到中等性能,表明次优数据在训练语义世界模型方面效果显著。

语义世界模型:革新机器人规划的视觉问答范式 语义世界模型 视觉问答 机器人规划 视觉语言模型 第14张

SWM是否保留了基础VLM的泛化能力?

为衡量VLM预训练对泛化能力的影响,作者在组合式和场景分布外环境中对SWM评估,相关环境如图6所示。

语义世界模型:革新机器人规划的视觉问答范式 语义世界模型 视觉问答 机器人规划 视觉语言模型 第15张

为衡量语义组合泛化能力,在LangTable环境中引入新彩色方块,并修改现有方块颜色-形状组合。表4显示,在这些条件下,与基础策略相比,SWM平均提高20.0%。此性能表明SWM能保留部分预训练知识,实现组合泛化。

语义世界模型:革新机器人规划的视觉问答范式 语义世界模型 视觉问答 机器人规划 视觉语言模型 第16张

为测试对背景变化的鲁棒性,作者将OGBench的背景颜色改为新组合。与基础策略相比,SWM性能再次提升20%,并能泛化到这些条件,而AVD方法无法做到。

模型的内部表征是否关注与任务相关的信息?

为理解模型所学表征,作者从模型中间层可视化从语言token到图像patch的注意力图。如图7所示,模型会根据语言提示正确关注图像中与任务相关位置。例如,当被问到“红色的月亮是否在接触蓝色的立方体?”时,与这些物体对应的图像patch上注意力得分更高。尽管从未在涉及两个以上物体的问题上微调,研究发现当被问及此类问题时,模型能正确关注三个物体。这表明模型继承了预训练VLM的泛化能力。

语义世界模型:革新机器人规划的视觉问答范式 语义世界模型 视觉问答 机器人规划 视觉语言模型 第17张