实现机器人对指令的精准理解,推动导航性能全面升级!
深圳大学李坚强教授团队携手北京理工莫斯科大学等多所机构,近期创新性提出了视觉-语言导航(VLN)的全新框架——UNeMo。
通过整合多模态世界模型与分层预测反馈机制,该框架使导航智能体不仅能感知当前环境,还能前瞻性预测后续视觉状态,从而做出更加智能的决策。
与主流方法相比,UNeMo显著降低了计算资源消耗,在未知环境中的导航成功率高达72.5%,并在长轨迹导航任务中展现出卓越性能。
目前,这项研究成果已被AAAI 2026会议收录。
以下内容为您深入解析该技术的细节。
作为具身人工智能的核心任务,视觉-语言导航要求智能体仅依靠视觉感知与自然语言指令,在陌生环境中自主实现目标导航。
尽管大语言模型(LLM)的崛起推动了相关进展,但现有方法仍存在两大关键局限:
为此,研究团队设计了UNeMo框架,其核心创新在于建立了“多模态世界模型(MWM)+分层预测反馈导航器(HPFN)”的双向协同架构,将视觉状态推理与导航决策深度融合,从根本上破解了协同难题。
MWM基于条件变分自编码器构建,核心功能是准确预测未来视觉状态。
它能够接收当前视觉特征、语言指令及候选导航动作,通过跨模态注意力机制融合多源信息,弥补了传统方法“仅关注当下”的不足。
该模型无需额外标注数据,即可通过导航决策结果进行反向反馈,持续优化预测精度,形成自适应学习循环。
HPFN采用两阶段分层策略平衡效率与精度:
首先基于当前视觉-语言特征生成粗粒度候选动作(a’)以确定导航方向,随后融合MWM预测的未来视觉状态优化出细粒度动作(a’’)以校正偏差,确保智能体在复杂环境中稳健导航。
UNeMo架构最关键的突破在于形成了“推理-决策”相互增强的闭环优化。
MWM的视觉预测为导航提供前瞻性信息,提升决策准确性;导航的实际执行结果则实时反馈给MWM,优化其预测模型。
这种双向促进机制使智能体在导航过程中不断迭代进化,有效解决了传统LLM-based VLN方法中推理与决策脱节的痛点。
为全面评估UNeMo框架的价值,研究团队设计了多维度实验方案:
从核心场景的效率与性能平衡验证,到复杂场景的鲁棒性测试,再到跨基线与跨数据集的可扩展性验证,逐步展示其架构优势。
在VLN领域基准数据集R2R上的实验表明,UNeMo在轻量化设计与高性能决策之间取得了关键平衡。
其采用的FlanT5-1.5B模型参数规模仅为主流方法NavGPT2所用FlanT5-5B的30%,但资源消耗大幅降低——
训练时GPU显存占用从27GB减少至12GB,降幅达56%;推理速度从每步1.1秒提升至0.7秒,效率提高40%。
这种“参数减少而性能不降”的特性,对VLN技术的实际部署具有重要意义。
同时,UNeMo在核心性能指标上依然领先。
在未见过的测试环境(test unseen)中,其导航成功率(SR)达到72.5%,较NavGPT2的71%提升1.5个百分点;路径效率(SPL)从60%提升至61.3%。
为验证UNeMo在复杂场景中的适应能力,团队重点测试了其预探索机制对长距离导航鲁棒性的增强效果,在val-unseen数据集上对比UNeMo与NavGPT2在不同路径长度下的表现。
结果显示,UNeMo的优势在长轨迹导航中尤为明显:
短路径(长度<7)的导航成功率(SR)仅小幅提升1.2%(从71.1%至72.3%);而长路径(长度≥7)的SR大幅提升5.6%(从64.2%至69.8%),提升幅度是短路径的4.7倍。
这证明了UNeMo的多模态预测与分层决策机制,能有效缓解长距离导航中的误差累积,解决了传统方法在长轨迹任务中性能下降的难题。
为进一步验证UNeMo协同训练架构的通用性与可扩展性,团队将其迁移至不同类型的导航基线(如DUET)与目标导向导航数据集REVERIE,进行了跨场景测试。
实验结果表明,其在未见场景的导航成功率(SR)与远程目标定位成功率(RGS)指标上均有提高。
这表明UNeMo的协同训练架构不局限于LLM-based基线,能够灵活适配多样化的导航系统,在不同任务场景中发挥价值,验证了其强大的可扩展性。
总而言之,UNeMo针对传统VLN方法中推理与决策分离、资源消耗高等问题,以“多模态世界模型+分层预测反馈导航器”协同架构提供了创新解决方案。
其轻量化设计兼具高性能、长路径导航稳健性与跨场景适应力的优势,为VLN提供了高效可行的技术路径,有望推动服务机器人等实际应用落地,促进VLN领域的持续发展。
论文链接:https://arxiv.org/abs/2511.18845
本文由主机测评网于2026-02-07发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260223453.html