当前位置：首页 > 科技资讯 > 正文

Evo-0：增强VLA模型3D空间理解能力的轻量化方法

在机器人学习领域，人工智能如何准确感知和理解三维环境始终是一个核心挑战。

视觉语言动作（VLA）模型通常基于预训练的视觉语言模型（VLM），仅使用二维图像-文本数据进行训练，因此缺乏在真实世界操作中必需的三维空间理解能力。

现有的基于显式深度输入的改进方法虽然有效，但依赖于额外的传感器或深度估计网络，导致部署复杂、精度受噪声影响等问题。

Evo-0：增强VLA模型3D空间理解能力的轻量化方法 VLA模型 3D几何先验 VGGT 机器人学习第1张

针对这一问题，上海交通大学与剑桥大学的研究团队提出了一种轻量化方法Evo-0，旨在增强视觉语言动作模型的空间理解能力。通过隐式注入三维几何先验，无需显式深度输入或额外传感器。

该方法利用视觉几何基础模型VGGT，从多视角RGB图像中提取三维结构信息，并将其融合到原有的视觉语言模型中，从而显著提升空间感知能力。

在RLBench仿真实验中，Evo-0在五个需要精细操作的任务上，平均成功率比基线pi0高出15%，比OpenVLA-OFT高出31%。

Evo-0：增强VLA模型3D空间理解能力的轻量化方法 VLA模型 3D几何先验 VGGT 机器人学习第2张

Evo-0：实现二维与三维表征的融合

Evo-0提出将VGGT作为空间编码器，引入VGGT训练过程中针对三维结构任务提取的t3^D token。这些token包含深度上下文、跨视图空间对应关系等几何信息。

模型引入一个交叉注意力融合模块，将ViT提取的二维视觉token作为查询，VGGT输出的三维token作为键/值，实现二维与三维表征的融合，从而提升对空间结构、物体布局的理解能力。

Evo-0：增强VLA模型3D空间理解能力的轻量化方法 VLA模型 3D几何先验 VGGT 机器人学习第3张

融合后的token与语言指令共同输入冻结主干的VLM，预测动作由流匹配策略生成。训练中，仅微调融合模块、LoRA适配层与动作专家，降低计算成本。

研究团队通过在5个RLBench模拟任务、5个真实世界操作任务上的全面实验，以及在5种不同干扰条件下的鲁棒性评估，证明了空间信息融合方法的有效性。在所有设置中，Evo-0都一致地增强了空间理解，并且优于最先进的VLA模型。

除了上述展示的效果外，在超参数实验中，为了分析超参数如何影响模型性能，团队在5个RLBench任务上进行了额外的实验。他们重点关注两个方面：训练步数和执行步数，并评估它们对任务成功率的影响。

值得注意的是，仅用15千步训练的Evo-0已经超过了用20千步训练的π0，这表明Evo-0具有更高的训练效率。

Evo-0：增强VLA模型3D空间理解能力的轻量化方法 VLA模型 3D几何先验 VGGT 机器人学习第4张

在真机实验部分，实验设计了五个空间感知要求高的真实机器人任务，包括目标居中放置、插孔、密集抓取、置物架放置及透明物体操作等。所有任务均对空间精度容忍度极低。

Evo-0：增强VLA模型3D空间理解能力的轻量化方法 VLA模型 3D几何先验 VGGT 机器人学习第5张

Evo-0在全部任务中均超越基线模型pi0，平均成功率提升28.88%。尤其在插孔与透明物抓取任务中，表现出对复杂空间关系的理解与精准操控能力。

Evo-0：增强VLA模型3D空间理解能力的轻量化方法 VLA模型 3D几何先验 VGGT 机器人学习第6张

在鲁棒性实验中，论文设计了五类干扰条件：（1）引入一个未见过的干扰物体，（2）背景颜色的变化，（3）目标位置的位移，（4）目标高度的变化，（5）相机角度的变化。Evo-0均有相对鲁棒的结果，并且强于基准pi0。

Evo-0：增强VLA模型3D空间理解能力的轻量化方法 VLA模型 3D几何先验 VGGT 机器人学习第7张

综上所述，Evo-0的关键在于通过VGGT提取丰富的空间语义，绕过深度估计误差与传感器需求，以插件形式增强VLA模型的空间建模能力，训练高效、部署灵活，为通用机器人策略提供新的可行路径。

论文链接：https://arxiv.org/abs/2507.00416

本文由主机测评网于2026-01-04发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260114894.html