当前位置:首页 > 科技资讯 > 正文

UNeMo:融合多模态世界模型与分层反馈的视觉-语言导航新突破

让机器理解人类语言指令,实现精准导航再上新台阶!

来自深圳大学李坚强教授团队,联合北京理工莫斯科大学等机构,近日提出了一种全新的视觉-语言导航(VLN)框架——UNeMo,旨在破解导航智能体在未知环境中的决策难题。

UNeMo:融合多模态世界模型与分层反馈的视觉-语言导航新突破 视觉-语言导航  多模态世界模型 分层预测反馈 智能机器人导航 第1张

该框架通过多模态世界模型分层预测反馈机制的协同作用,使导航智能体不仅能感知当前环境,还能预判即将出现的视觉场景,从而做出更加智能的导航决策。

相较于主流方法,UNeMo显著降低了计算资源需求,在未知环境中的导航成功率提升至72.5%,尤其在长距离轨迹导航任务中表现出色。

目前,该研究成果已被AAAI2026收录。

UNeMo:融合多模态世界模型与分层反馈的视觉-语言导航新突破 视觉-语言导航  多模态世界模型 分层预测反馈 智能机器人导航 第2张

以下为详细技术解读。

语言推理与视觉导航的“协同鸿沟”

作为具身智能领域的核心课题,视觉-语言导航要求智能体仅利用视觉输入自然语言指令,在陌生环境中自主抵达目标点。

尽管大语言模型(LLM)的引入推动了该领域的发展,但现有方法仍受两大问题困扰:

  • 推理模态单一:当前方法过度依赖语言逻辑推理,缺少对视觉环境演变的预判能力,难以适应复杂动态场景;
  • 优化目标割裂:语言推理模块与导航策略独立训练,导致两者配合不佳,制约了整体性能提升。

双模块协同:构建“预判+决策”闭环系统

为此,研究团队提出UNeMo框架,其核心在于构建了“多模态世界模型(MWM)+分层预测反馈导航器(HPFN)”的双向协同体系,将视觉状态预测与导航决策深度融合,从根源上消除推理与决策的脱节。

基于多模态世界模型的未来视觉状态推演

MWM以条件变分自编码器为基础,专注于精准推演未来视觉状态。

它能融合当前视觉特征、语言指令及候选导航动作,通过跨注意力机制整合多模态信息,突破传统方法“仅关注当下”的局限。

而且无需额外标注,即可根据导航决策结果反向优化预测精度,形成自我迭代的进化闭环。

UNeMo:融合多模态世界模型与分层反馈的视觉-语言导航新突破 视觉-语言导航  多模态世界模型 分层预测反馈 智能机器人导航 第3张

高效分层预测反馈导航器的设计

HPFN采用两阶段分层策略兼顾效率与准确性:

首先基于当前视觉-语言特征生成粗粒度候选动作(a’),锁定大致方向;随后结合MWM预测的未来视觉状态,优化出细粒度动作(a’’)修正偏差,确保智能体在复杂环境中稳健行进。

UNeMo:融合多模态世界模型与分层反馈的视觉-语言导航新突破 视觉-语言导航  多模态世界模型 分层预测反馈 智能机器人导航 第4张

推理与决策的动态闭环赋能机制

UNeMo作为通用导航架构,其关键突破在于构建了“推理-决策”相互促进的闭环优化流程。

MWM的视觉预判为导航提供前瞻性信息,提升决策质量;而导航的实际执行结果又实时反馈给MWM,进一步优化其预测能力。

这种双向迭代使智能体在导航过程中持续进化,有效克服了传统LLM-based VLN方法中推理与决策分离的固有缺陷。

实验验证

为全面检验UNeMo框架的实际效能,团队设计了多维度实验方案:

从核心场景的性能与效率双重验证,到复杂场景的鲁棒性突破,再到跨基线、跨数据集的扩展性验证,层层深入展现架构优势。

1、核心场景突破:R2R数据集上LLM-based方法实现效率与性能双赢

在VLN标杆数据集R2R的测试中,UNeMo在轻量化配置高性能决策之间取得了关键平衡。

其采用的FlanT5-1.5B模型参数量仅为NavGPT2所用FlanT5-5B的30%,但在资源消耗方面实现了大幅优化——

训练时GPU显存占用从27GB降至12GB,降幅达56%;推理速度从每步1.1秒提升至0.7秒,效率提升40%。

这种“减参不减效”的特性,对VLN技术的实际部署意义深远。

同时,UNeMo在核心性能指标上依然超越主流方法。

在模型未见过的新环境(test unseen)中,其导航成功率(SR)达到72.5%,较NavGPT2的71%高出1.5个百分点;路径效率(SPL)从60%提升至61.3%。

UNeMo:融合多模态世界模型与分层反馈的视觉-语言导航新突破 视觉-语言导航  多模态世界模型 分层预测反馈 智能机器人导航 第5张

2、复杂场景鲁棒性:长路径导航优势显著

为评估UNeMo在复杂场景下的适应力,团队重点测试其预探索机制对长距离导航鲁棒性的增益,在val-unseen数据集上对比UNeMo与NavGPT2在不同路径长度下的表现。

结果显示,UNeMo在长轨迹导航中的优势尤为突出:

短路径(长度<7)的导航成功率(SR)仅提升1.2%(从71.1%至72.3%);而长路径(长度≥7)的SR大幅跃升5.6%(从64.2%至69.8%),增幅达短路径的4.7倍

这充分证明UNeMo的多模态预判与分层决策机制,能有效抑制长距离导航中的误差累积,攻克了传统方法在长轨迹任务中性能衰减的难题。

3、跨场景扩展性:多基线多数据集的全面验证

为验证UNeMo协同训练架构的通用性与可扩展性,团队将其迁移至不同类型导航基线(DUET)及目标导向导航数据集REVERIE,开展跨场景测试。

UNeMo:融合多模态世界模型与分层反馈的视觉-语言导航新突破 视觉-语言导航  多模态世界模型 分层预测反馈 智能机器人导航 第6张

实验结果表明,在unseen场景中,导航成功率(SR)与远程目标定位成功率(RGS)均有提升。

这说明UNeMo的协同训练架构不仅适用于LLM-based基线,还能灵活适配多种导航系统,在不同任务场景中展现价值,证实了其强大的可扩展性。

综上所述,UNeMo针对传统VLN方法中推理与决策脱节、资源消耗过高等问题,以“多模态世界模型+分层预测反馈导航器”协同架构实现了突破。

其轻量化配置兼具高性能长路径导航稳健性跨场景强适配性等优势,为VLN提供了高效可行的解决方案,有望加速服务机器人等实际场景落地,推动VLN领域发展。

论文链接:https://arxiv.org/abs/2511.18845