深圳大学李坚强教授团队携手北京理工莫斯科大学等机构,推出了一项革命性的视觉-语言导航(VLN)框架——UNeMo。
通过多模态世界模型与分层预测反馈机制的结合,UNeMo使导航智能体不仅能观察当前环境,还能预测未来可能遇到的情况,并据此做出更明智的决策。
相较于现有方法,UNeMo显著降低了资源消耗,在未见过的环境中导航成功率高达72.5%,特别是在长轨迹导航中表现尤为出色。
目前,该研究成果已在AAAI2026中发表。
以下是关于UNeMo框架的更多细节。
作为Embodied AI的核心任务之一,视觉-语言导航要求智能体仅凭视觉图像和自然语言指令,在未知环境中自主完成目标导航。
随着大语言模型(LLM)的兴起,尽管基于LLM的导航方法取得了进展,但仍面临两大关键瓶颈:
研究团队提出的UNeMo框架,其核心在于构建了“多模态世界模型(MWM)+分层预测反馈导航器(HPFN)”的双向协同架构,将视觉状态推理与导航决策紧密结合,从根本上解决了现有方法的脱节问题。
MWM基于条件变分自编码器构建,专注于精准预测未来的视觉状态。
它能够接收当前的视觉特征、语言指令与候选导航动作,通过跨注意力机制融合多模态信息,突破了现有方法“只看当下”的限制。
而且无需额外标注数据,就能通过导航决策结果反向反馈,持续优化预测精度,形成自适应进化循环。
HPFN采用两阶段分层机制平衡效率与精度:
首先基于当前视觉-语言特征生成粗粒度候选动作(a’)以锁定导航方向,然后融合MWM预测的未来视觉状态优化出细粒度动作(a’’)以修正偏差,使智能体在复杂场景中稳健导航。
UNeMo这一通用导航架构最核心的突破在于构建了“推理-决策”相互赋能的闭环优化。
MWM的视觉预判为导航提供前瞻信息,提升决策精准度;而导航的实际执行结果则实时反馈给MWM,优化其预测准确性。
这种双向促进让智能体在导航中持续迭代,解决了传统LLM-based VLN方法中推理与决策分离的痛点。
为全面验证UNeMo框架的核心价值,团队设计了全面的实验评估方案:
从核心场景的性能与效率双优验证,到复杂场景的鲁棒性突破,再到跨基线、跨数据集的可拓展性验证,层层递进展现架构优势。
在VLN领域核心数据集R2R的实验中,UNeMo在轻量化配置与高性能决策的平衡上实现了关键突破。
其采用的FlanT5-1.5B模型参数规模仅为主流方法NavGPT2所用FlanT5-5B的30%,但在资源消耗上实现了大幅优化——
训练时GPU显存占用从27GB降至12GB,减少56%;推理速度从每步1.1秒提升至0.7秒,效率提升40%。
本文由主机测评网于2026-05-24发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260545989.html