智能驾驶技术：VLA能否成为智能驾驶的未来？

L3拐点将至，智能驾驶技术正走向VLA分水岭。原本统一的“智驾第一阵营”开始分化：理想、小鹏、元戎主张VLA，而华为、Momenta等则持不同意见。

有人视VLA为指路明灯，但也有人对其能否“发光”表示质疑。从三个问题出发，我们试图还原关于VLA的争论点：VLA能为智驾解决什么问题？VLA落地面临哪些挑战？VLA是否是智驾终局的最优解？

智能驾驶早已告别“抄作业”时代，没有标准答案，大家都在探索中前进。比拼的不仅是技术路径，更是背后的资源分配策略和技术价值观。

如理想和元戎坚信，VLA虽进展慢，但上限更高。大家都在追求长期主义，但谁将胜出，仍需时间验证。

01 仅靠端到端，智驾只能到90%

端到端固然是捷径，但并非完美。它虽改写了底层逻辑，但存在两大缺陷：一是无法解释车辆为何如此行动；二是无法处理未见过的场景。

智驾安全不能停留在90%的基准线，需要规则兜底。于是，VLA（视觉-语言-动作大模型）进入技术前台。

这项技术由谷歌旗下DeepMind提出，通过整合视觉感知、语言推理和动作控制，实现图像观察和文本指令到物理动作的端到端控制。

理想、元戎启行将其引入智驾领域，旨在突破端到端的瓶颈。VLA的加入，让系统具备更全面的“路牌”理解、更自然的语音交互和更前瞻的风险预判。

当理想、元戎高举VLA大旗时，迎接它的不是光环，而是质疑。这场由VLA引发的舆论漩涡有三层：

第一层是真假VLA之辩。小鹏虽属VLA阵营，却对“队友”提出质疑，认为只有他们做成了真正的VLA。

第二层是VLA的落地挑战。博世等指出，多模态大模型特征对齐、数据获取和训练以及现有智驾芯片支持都是难题。

第三层是VLA对智驾的真伪性。Momenta和华为认为，VLA不足以扛起L4、L5的大任，世界模型才是正确路径。

过去一年，智能驾驶进入“功能停滞”瓶颈期。监管按下暂停键，L3政策未放开，用户体验提升不明显。

大家都更愿意选择确定性路径，强化学习、世界模型与VLA并不冲突。理想等选择押注VLA，追求大模型上限；而华为等则强调结构性解法，走体系化路线。

每项决策都是边际成本与效益的最优计算。最终，能把智驾体验做到极致的玩家，才有望在L3起跑时领先。