当前位置：首页 > 科技资讯 > 正文

UNeMo框架：精准导航与语言推理的革新

深圳大学李坚强教授团队携手北京理工莫斯科大学等机构，推出了一项革命性的视觉-语言导航（VLN）框架——UNeMo。

UNeMo框架：精准导航与语言推理的革新 UNeMo 视觉-语言导航多模态世界模型分层预测反馈第1张

通过多模态世界模型与分层预测反馈机制的结合，UNeMo使导航智能体不仅能观察当前环境，还能预测未来可能遇到的情况，并据此做出更明智的决策。

相较于现有方法，UNeMo显著降低了资源消耗，在未见过的环境中导航成功率高达72.5%，特别是在长轨迹导航中表现尤为出色。

目前，该研究成果已在AAAI2026中发表。

UNeMo框架：精准导航与语言推理的革新 UNeMo 视觉-语言导航多模态世界模型分层预测反馈第2张

以下是关于UNeMo框架的更多细节。

语言推理与视觉导航的“脱节困境”

作为Embodied AI的核心任务之一，视觉-语言导航要求智能体仅凭视觉图像和自然语言指令，在未知环境中自主完成目标导航。

随着大语言模型（LLM）的兴起，尽管基于LLM的导航方法取得了进展，但仍面临两大关键瓶颈：

研究团队提出的UNeMo框架，其核心在于构建了“多模态世界模型（MWM）+分层预测反馈导航器（HPFN）”的双向协同架构，将视觉状态推理与导航决策紧密结合，从根本上解决了现有方法的脱节问题。

MWM基于条件变分自编码器构建，专注于精准预测未来的视觉状态。

它能够接收当前的视觉特征、语言指令与候选导航动作，通过跨注意力机制融合多模态信息，突破了现有方法“只看当下”的限制。

而且无需额外标注数据，就能通过导航决策结果反向反馈，持续优化预测精度，形成自适应进化循环。

UNeMo框架：精准导航与语言推理的革新 UNeMo 视觉-语言导航多模态世界模型分层预测反馈第3张

HPFN采用两阶段分层机制平衡效率与精度：

首先基于当前视觉-语言特征生成粗粒度候选动作（a’）以锁定导航方向，然后融合MWM预测的未来视觉状态优化出细粒度动作（a’’）以修正偏差，使智能体在复杂场景中稳健导航。

UNeMo框架：精准导航与语言推理的革新 UNeMo 视觉-语言导航多模态世界模型分层预测反馈第4张

UNeMo这一通用导航架构最核心的突破在于构建了“推理-决策”相互赋能的闭环优化。

MWM的视觉预判为导航提供前瞻信息，提升决策精准度；而导航的实际执行结果则实时反馈给MWM，优化其预测准确性。

这种双向促进让智能体在导航中持续迭代，解决了传统LLM-based VLN方法中推理与决策分离的痛点。

为全面验证UNeMo框架的核心价值，团队设计了全面的实验评估方案：

从核心场景的性能与效率双优验证，到复杂场景的鲁棒性突破，再到跨基线、跨数据集的可拓展性验证，层层递进展现架构优势。

在VLN领域核心数据集R2R的实验中，UNeMo在轻量化配置与高性能决策的平衡上实现了关键突破。

其采用的FlanT5-1.5B模型参数规模仅为主流方法NavGPT2所用FlanT5-5B的30%，但在资源消耗上实现了大幅优化——

训练时GPU显存占用从27GB降至12GB，减少56%；推理速度从每步1.1秒提升至0.7秒，效率提升40%。

本文由主机测评网于2026-05-24发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260545989.html