体验Robotaxi如同造手机般简单?
近日,英伟达在AI顶会NeurIPS上发布了Alpamayo-R1——
首个自动驾驶VLA,其性能比传统端到端技术高出30%以上,且开源。
在自动驾驶技术迈向多模态大模型一统的趋势下,Robotaxi的门槛似乎真的降低了:只需购买英伟达的芯片,算法也能借鉴移植英伟达的VLA,再加上一些特定风格与场景的微调……这一流程与手机厂商打造新机型颇为相似。
英伟达在自动驾驶领域的野心昭然若揭:立志成为自动驾驶领域的“安卓”。
有趣的是,作为端到端自动驾驶的“鼻祖”,英伟达最新的VLA研究,要解决的核心问题恰是端到端的短板。
端到端系统从感知到控制一气呵成,利用成熟司机的数据训练,理论上可无限“拟人”,处理各种异常情况。
然而,已量产的系统仍频现翻车情况,如违规左转、行人突然闯入等。
这些正是端到端系统在处理Corner case时栽跟头的原因,英伟达将其归因为端到端的局限性——看得清但看不懂,即常说的“黑盒”特性。
英伟达的解决方案是视觉-语言-动作模型(VLA)。
直接看成果:
对比的Baseline模型和Alpamayo-R1均在英伟达构建的CoC数据集上训练,这也是研究的重要一环。
CoC代表因果链,是模型可解释性的根基。
而Baseline模型则是纯轨迹输出模型,缺乏推理能力。
实验结果显示:
规划精度提升12%、越界率降低35%、近碰率降低25%、推理-行动一致性提升37%、端到端延迟降低到99ms。
可见,Alpamayo-R1主要在以往易出错场景中表现更优——更接近“真正会判断的司机”。
Alpamayo-R1的核心工作包括三点。首先是Chain of Causation(因果链)数据集。
这是一套全新的数据标注体系,每段驾驶数据不仅记录“做了什么”,还记录“为何这样做”,例如“减速并左变道,是因为前方有助动车等红灯且左侧车道空闲”:
CoC是对CoT(因果推理树)的发展与延伸,主要解决行为描述模糊等问题。
CoC的标注校准仍依赖人工。
AR1基于NVIDIA的Cosmos Reason模型,专为物理AI设计:
其最大特点是基于因果结构化推理而非自由叙事,即模型必须依据历史证据解释操作的安全性与合规性——
这是第二个重要创新点,采用Multi-Stage Training(多阶段训练策略):
首先在大规模驾驶数据上学习视觉到动作的基本映射;
第二阶段在CoC数据上做监督微调;
最后通过强化学习(RL)优化推理质量等。
这种分阶段、分目标的训练流程使得模型在开放场景、长尾危险场景中表现更稳健。
Alpamayo-R1不仅是VLA模型,更与常见的“端到端+大语言模型外挂”不同。
其基座模型是年初CES上发布的Cosmos Reason
本文由主机测评网于2026-05-19发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260545458.html