当前位置：首页 > 科技资讯 > 正文

UNeMo：融合多模态世界模型与分层反馈的视觉-语言导航新突破

主机测评网
科技资讯
2026-03-02
565

让机器理解人类语言指令，实现精准导航再上新台阶！

来自深圳大学李坚强教授团队，联合北京理工莫斯科大学等机构，近日提出了一种全新的视觉-语言导航（VLN）框架——UNeMo，旨在破解导航智能体在未知环境中的决策难题。

UNeMo：融合多模态世界模型与分层反馈的视觉-语言导航新突破视觉-语言导航多模态世界模型分层预测反馈智能机器人导航第1张

该框架通过多模态世界模型与分层预测反馈机制的协同作用，使导航智能体不仅能感知当前环境，还能预判即将出现的视觉场景，从而做出更加智能的导航决策。

相较于主流方法，UNeMo显著降低了计算资源需求，在未知环境中的导航成功率提升至72.5%，尤其在长距离轨迹导航任务中表现出色。

目前，该研究成果已被AAAI2026收录。

UNeMo：融合多模态世界模型与分层反馈的视觉-语言导航新突破视觉-语言导航多模态世界模型分层预测反馈智能机器人导航第2张

以下为详细技术解读。

语言推理与视觉导航的“协同鸿沟”

作为具身智能领域的核心课题，视觉-语言导航要求智能体仅利用视觉输入和自然语言指令，在陌生环境中自主抵达目标点。

尽管大语言模型（LLM）的引入推动了该领域的发展，但现有方法仍受两大问题困扰：

推理模态单一：当前方法过度依赖语言逻辑推理，缺少对视觉环境演变的预判能力，难以适应复杂动态场景；
优化目标割裂：语言推理模块与导航策略独立训练，导致两者配合不佳，制约了整体性能提升。

双模块协同：构建“预判+决策”闭环系统

为此，研究团队提出UNeMo框架，其核心在于构建了“多模态世界模型（MWM）+分层预测反馈导航器（HPFN）”的双向协同体系，将视觉状态预测与导航决策深度融合，从根源上消除推理与决策的脱节。

基于多模态世界模型的未来视觉状态推演

MWM以条件变分自编码器为基础，专注于精准推演未来视觉状态。

它能融合当前视觉特征、语言指令及候选导航动作，通过跨注意力机制整合多模态信息，突破传统方法“仅关注当下”的局限。

而且无需额外标注，即可根据导航决策结果反向优化预测精度，形成自我迭代的进化闭环。

UNeMo：融合多模态世界模型与分层反馈的视觉-语言导航新突破视觉-语言导航多模态世界模型分层预测反馈智能机器人导航第3张

高效分层预测反馈导航器的设计

HPFN采用两阶段分层策略兼顾效率与准确性：

首先基于当前视觉-语言特征生成粗粒度候选动作（a’），锁定大致方向；随后结合MWM预测的未来视觉状态，优化出细粒度动作（a’’）修正偏差，确保智能体在复杂环境中稳健行进。

UNeMo：融合多模态世界模型与分层反馈的视觉-语言导航新突破视觉-语言导航多模态世界模型分层预测反馈智能机器人导航第4张

推理与决策的动态闭环赋能机制

UNeMo作为通用导航架构，其关键突破在于构建了“推理-决策”相互促进的闭环优化流程。

MWM的视觉预判为导航提供前瞻性信息，提升决策质量；而导航的实际执行结果又实时反馈给MWM，进一步优化其预测能力。

这种双向迭代使智能体在导航过程中持续进化，有效克服了传统LLM-based VLN方法中推理与决策分离的固有缺陷。

实验验证

为全面检验UNeMo框架的实际效能，团队设计了多维度实验方案：

从核心场景的性能与效率双重验证，到复杂场景的鲁棒性突破，再到跨基线、跨数据集的扩展性验证，层层深入展现架构优势。

1、核心场景突破：R2R数据集上LLM-based方法实现效率与性能双赢

在VLN标杆数据集R2R的测试中，UNeMo在轻量化配置与高性能决策之间取得了关键平衡。

其采用的FlanT5-1.5B模型参数量仅为NavGPT2所用FlanT5-5B的30%，但在资源消耗方面实现了大幅优化——

训练时GPU显存占用从27GB降至12GB，降幅达56%；推理速度从每步1.1秒提升至0.7秒，效率提升40%。

这种“减参不减效”的特性，对VLN技术的实际部署意义深远。

同时，UNeMo在核心性能指标上依然超越主流方法。

在模型未见过的新环境（test unseen）中，其导航成功率（SR）达到72.5%，较NavGPT2的71%高出1.5个百分点；路径效率（SPL）从60%提升至61.3%。

UNeMo：融合多模态世界模型与分层反馈的视觉-语言导航新突破视觉-语言导航多模态世界模型分层预测反馈智能机器人导航第5张

2、复杂场景鲁棒性：长路径导航优势显著

为评估UNeMo在复杂场景下的适应力，团队重点测试其预探索机制对长距离导航鲁棒性的增益，在val-unseen数据集上对比UNeMo与NavGPT2在不同路径长度下的表现。

结果显示，UNeMo在长轨迹导航中的优势尤为突出：

短路径（长度＜7）的导航成功率（SR）仅提升1.2%（从71.1%至72.3%）；而长路径（长度≥7）的SR大幅跃升5.6%（从64.2%至69.8%），增幅达短路径的4.7倍。

这充分证明UNeMo的多模态预判与分层决策机制，能有效抑制长距离导航中的误差累积，攻克了传统方法在长轨迹任务中性能衰减的难题。

3、跨场景扩展性：多基线多数据集的全面验证

为验证UNeMo协同训练架构的通用性与可扩展性，团队将其迁移至不同类型导航基线（DUET）及目标导向导航数据集REVERIE，开展跨场景测试。

UNeMo：融合多模态世界模型与分层反馈的视觉-语言导航新突破视觉-语言导航多模态世界模型分层预测反馈智能机器人导航第6张

实验结果表明，在unseen场景中，导航成功率（SR）与远程目标定位成功率（RGS）均有提升。

这说明UNeMo的协同训练架构不仅适用于LLM-based基线，还能灵活适配多种导航系统，在不同任务场景中展现价值，证实了其强大的可扩展性。

综上所述，UNeMo针对传统VLN方法中推理与决策脱节、资源消耗过高等问题，以“多模态世界模型+分层预测反馈导航器”协同架构实现了突破。

其轻量化配置兼具高性能、长路径导航稳健性、跨场景强适配性等优势，为VLN提供了高效可行的解决方案，有望加速服务机器人等实际场景落地，推动VLN领域发展。

论文链接：https://arxiv.org/abs/2511.18845

性价比服务器服务器教程性价比vps

本文由主机测评网于2026-03-02发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260328214.html

UNeMo：融合多模态世界模型与分层反馈的视觉-语言导航新突破

语言推理与视觉导航的“协同鸿沟”