当前位置:首页 > 科技资讯 > 正文

UNeMo框架:精准导航与语言推理的革新

深圳大学李坚强教授团队携手北京理工莫斯科大学等机构,推出了一项革命性的视觉-语言导航(VLN)框架——UNeMo

UNeMo框架:精准导航与语言推理的革新 UNeMo 视觉-语言导航 多模态世界模型 分层预测反馈 第1张

通过多模态世界模型分层预测反馈机制的结合,UNeMo使导航智能体不仅能观察当前环境,还能预测未来可能遇到的情况,并据此做出更明智的决策。

相较于现有方法,UNeMo显著降低了资源消耗,在未见过的环境中导航成功率高达72.5%,特别是在长轨迹导航中表现尤为出色。

目前,该研究成果已在AAAI2026中发表。

UNeMo框架:精准导航与语言推理的革新 UNeMo 视觉-语言导航 多模态世界模型 分层预测反馈 第2张

以下是关于UNeMo框架的更多细节。

语言推理与视觉导航的“脱节困境”

作为Embodied AI的核心任务之一,视觉-语言导航要求智能体仅凭视觉图像自然语言指令,在未知环境中自主完成目标导航。

随着大语言模型(LLM)的兴起,尽管基于LLM的导航方法取得了进展,但仍面临两大关键瓶颈:

  • 推理模态单一:现有方法仅依赖语言推理,缺乏对视觉环境状态的预判能力,难以应对复杂场景的动态变化;
  • 优化目标冲突:推理模块与导航策略分开训练,导致两者适配性差,无法实现动态协同优化,存在性能瓶颈。

双模块协同打造“预判+决策”闭环

研究团队提出的UNeMo框架,其核心在于构建了“多模态世界模型(MWM)+分层预测反馈导航器(HPFN)”的双向协同架构,将视觉状态推理与导航决策紧密结合,从根本上解决了现有方法的脱节问题。

基于多模态世界模型的未来视觉状态预测

MWM基于条件变分自编码器构建,专注于精准预测未来的视觉状态。

它能够接收当前的视觉特征、语言指令与候选导航动作,通过跨注意力机制融合多模态信息,突破了现有方法“只看当下”的限制。

而且无需额外标注数据,就能通过导航决策结果反向反馈,持续优化预测精度,形成自适应进化循环。

UNeMo框架:精准导航与语言推理的革新 UNeMo 视觉-语言导航 多模态世界模型 分层预测反馈 第3张

高效分层预测反馈导航器的实现

HPFN采用两阶段分层机制平衡效率与精度:

首先基于当前视觉-语言特征生成粗粒度候选动作(a’)以锁定导航方向,然后融合MWM预测的未来视觉状态优化出细粒度动作(a’’)以修正偏差,使智能体在复杂场景中稳健导航。

UNeMo框架:精准导航与语言推理的革新 UNeMo 视觉-语言导航 多模态世界模型 分层预测反馈 第4张

推理与决策的动态闭环赋能

UNeMo这一通用导航架构最核心的突破在于构建了“推理-决策”相互赋能的闭环优化。

MWM的视觉预判为导航提供前瞻信息,提升决策精准度;而导航的实际执行结果则实时反馈给MWM,优化其预测准确性。

这种双向促进让智能体在导航中持续迭代,解决了传统LLM-based VLN方法中推理与决策分离的痛点。

实验表现

为全面验证UNeMo框架的核心价值,团队设计了全面的实验评估方案:

从核心场景的性能与效率双优验证,到复杂场景的鲁棒性突破,再到跨基线、跨数据集的可拓展性验证,层层递进展现架构优势。

1、核心场景突破:R2R数据集上LLM-based方法的效率与性能双优

在VLN领域核心数据集R2R的实验中,UNeMo在轻量化配置高性能决策的平衡上实现了关键突破。

其采用的FlanT5-1.5B模型参数规模仅为主流方法NavGPT2所用FlanT5-5B的30%,但在资源消耗上实现了大幅优化——

训练时GPU显存占用从27GB降至12GB,减少56%;推理速度从每步1.1秒提升至0.7秒,效率提升40%。