让机器理解人类语言指令,实现精准导航再上新台阶!
来自深圳大学李坚强教授团队,联合北京理工莫斯科大学等机构,近日提出了一种全新的视觉-语言导航(VLN)框架——UNeMo,旨在破解导航智能体在未知环境中的决策难题。
该框架通过多模态世界模型与分层预测反馈机制的协同作用,使导航智能体不仅能感知当前环境,还能预判即将出现的视觉场景,从而做出更加智能的导航决策。
相较于主流方法,UNeMo显著降低了计算资源需求,在未知环境中的导航成功率提升至72.5%,尤其在长距离轨迹导航任务中表现出色。
目前,该研究成果已被AAAI2026收录。
以下为详细技术解读。
作为具身智能领域的核心课题,视觉-语言导航要求智能体仅利用视觉输入和自然语言指令,在陌生环境中自主抵达目标点。
尽管大语言模型(LLM)的引入推动了该领域的发展,但现有方法仍受两大问题困扰:
为此,研究团队提出UNeMo框架,其核心在于构建了“多模态世界模型(MWM)+分层预测反馈导航器(HPFN)”的双向协同体系,将视觉状态预测与导航决策深度融合,从根源上消除推理与决策的脱节。
MWM以条件变分自编码器为基础,专注于精准推演未来视觉状态。
它能融合当前视觉特征、语言指令及候选导航动作,通过跨注意力机制整合多模态信息,突破传统方法“仅关注当下”的局限。
而且无需额外标注,即可根据导航决策结果反向优化预测精度,形成自我迭代的进化闭环。
HPFN采用两阶段分层策略兼顾效率与准确性:
首先基于当前视觉-语言特征生成粗粒度候选动作(a’),锁定大致方向;随后结合MWM预测的未来视觉状态,优化出细粒度动作(a’’)修正偏差,确保智能体在复杂环境中稳健行进。
UNeMo作为通用导航架构,其关键突破在于构建了“推理-决策”相互促进的闭环优化流程。
MWM的视觉预判为导航提供前瞻性信息,提升决策质量;而导航的实际执行结果又实时反馈给MWM,进一步优化其预测能力。
这种双向迭代使智能体在导航过程中持续进化,有效克服了传统LLM-based VLN方法中推理与决策分离的固有缺陷。
为全面检验UNeMo框架的实际效能,团队设计了多维度实验方案:
从核心场景的性能与效率双重验证,到复杂场景的鲁棒性突破,再到跨基线、跨数据集的扩展性验证,层层深入展现架构优势。
在VLN标杆数据集R2R的测试中,UNeMo在轻量化配置与高性能决策之间取得了关键平衡。
其采用的FlanT5-1.5B模型参数量仅为NavGPT2所用FlanT5-5B的30%,但在资源消耗方面实现了大幅优化——
训练时GPU显存占用从27GB降至12GB,降幅达56%;推理速度从每步1.1秒提升至0.7秒,效率提升40%。
这种“减参不减效”的特性,对VLN技术的实际部署意义深远。
同时,UNeMo在核心性能指标上依然超越主流方法。
在模型未见过的新环境(test unseen)中,其导航成功率(SR)达到72.5%,较NavGPT2的71%高出1.5个百分点;路径效率(SPL)从60%提升至61.3%。
为评估UNeMo在复杂场景下的适应力,团队重点测试其预探索机制对长距离导航鲁棒性的增益,在val-unseen数据集上对比UNeMo与NavGPT2在不同路径长度下的表现。
结果显示,UNeMo在长轨迹导航中的优势尤为突出:
短路径(长度<7)的导航成功率(SR)仅提升1.2%(从71.1%至72.3%);而长路径(长度≥7)的SR大幅跃升5.6%(从64.2%至69.8%),增幅达短路径的4.7倍。
这充分证明UNeMo的多模态预判与分层决策机制,能有效抑制长距离导航中的误差累积,攻克了传统方法在长轨迹任务中性能衰减的难题。
为验证UNeMo协同训练架构的通用性与可扩展性,团队将其迁移至不同类型导航基线(DUET)及目标导向导航数据集REVERIE,开展跨场景测试。
实验结果表明,在unseen场景中,导航成功率(SR)与远程目标定位成功率(RGS)均有提升。
这说明UNeMo的协同训练架构不仅适用于LLM-based基线,还能灵活适配多种导航系统,在不同任务场景中展现价值,证实了其强大的可扩展性。
综上所述,UNeMo针对传统VLN方法中推理与决策脱节、资源消耗过高等问题,以“多模态世界模型+分层预测反馈导航器”协同架构实现了突破。
其轻量化配置兼具高性能、长路径导航稳健性、跨场景强适配性等优势,为VLN提供了高效可行的解决方案,有望加速服务机器人等实际场景落地,推动VLN领域发展。
论文链接:https://arxiv.org/abs/2511.18845
本文由主机测评网于2026-03-02发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260328214.html