当前位置：首页 > 科技资讯 > 正文

智能驾驶技术分水岭：VLA路线之争与L3时代前瞻

主机测评网
科技资讯
2025-12-30
945

随着L3级自动驾驶的拐点日益临近，智能驾驶领域正迈向以VLA技术为核心的关键分水岭。

此前相对统一的“智驾第一阵营”现已分化为两条截然不同的技术路径：

理想、小鹏、元戎启行组成一队，高举VLA旗帜，全力将VLA技术推向应用前沿；

华为、Momenta、博世、卓驭等玩家则站在对立面，对VLA技术持保留态度，甚至直言不讳地泼出冷水。

当一部分企业将VLA视为指引方向的明灯时，另一部分却在质疑其是否真能“照亮前路”。

通过以下三个核心问题，我们试图厘清关于VLA的争议焦点：

VLA能为智能驾驶解决哪些关键难题？

VLA落地应用面临哪些挑战？

VLA是否是智能驾驶终局的最优解？

智能驾驶早已超越“抄袭作业”的时代，没有标准答案可循，各方都在探索中前行。

当下智能驾驶的比拼，已不仅是技术路径的分野，更是技术选择背后资源分配策略与定力的较量，体现的是深层技术价值观。

正如理想和元戎坚信，VLA尽管进展缓慢，但其性能上限必然高于端到端模型。

大家都在押注长期主义，但谁的布局会率先显验，仍需时间给出答案。

01 仅靠端到端，

智驾进度条只能到 90%

端到端固然是一条捷径，它重构了底层逻辑，从传统规则驱动转变为数据驱动。

但当几乎所有玩家都登上端到端这艘大船后，才发现船只未必能顺利靠岸。

端到端两大缺陷横亘眼前：

一是车辆为何如此行动，原因难以解释。

传统端到端是一个黑箱，传感器信号如何转化为驾驶动作难以追溯，无法提供清晰的决策逻辑。例如车辆突然急刹，原因可能是探测到行人，也可能是将阴影误判为障碍物，但系统并不会说明“为什么”。

二是遇到未见过的场景，系统便束手无策。

端到端完全依赖数据驱动，未经历的场景往往无法处理。尤其在动态突发情况下，如行人突然横穿马路，系统只能依赖过往类似案例被动响应，反应滞后。此外，模型只能识别像素级特征（如红灯形状），却无法理解语义级规则，比如红灯代表禁止通行。

端到端可以解决智能驾驶90%的难题，但剩余的10%，却始终难以跨越。

智能驾驶安全显然不能停留在90%的基准线，要向前推进，业内普遍共识是用规则兜底，在端到端网络之外写入规则代码，教会系统基本交通法则，确保合理行驶。

但兜底更像是最后一道防线，面对错综复杂的极端情况，需要更加“治本”的方式。

于是，VLA（视觉-语言-动作大模型）跃入技术舞台中央。

这项技术最早由谷歌旗下的DeepMind提出，其标志性成果为机器人领域的RT-2模型，通过整合视觉感知、语言推理和动作控制，首次实现了从图像观察和文本指令到物理动作的端到端控制。

理想、元戎启行将其引入智能驾驶领域，目的也是借助VLA能力突破端到端的瓶颈。

VLA的关键点在于，在“VA（视觉-动作）模式”中间加入了“Language（语言）”这一关键桥梁。

理想智驾负责人郎咸朋强调，“L”指代语言学习能力，它并非简单用语言做显式的文字推理，而是用语言提供的数据学习做隐式的逻辑推理。

这就好比人与动物的区别，人的视觉能力、行动速度都不如动物，但凭借强大的认知和理解能力，能够比动物更胜一筹。

智能驾驶技术分水岭：VLA路线之争与L3时代前瞻 VLA技术端到端模型智能驾驶竞争世界模型第1张

相当于，VLA的核心任务，就是让系统具备长“思维链”，这落实到性能体验上，会带来三方面提升。

其一，更全维度的“路牌”理解。

这里的“路牌”不再局限于平面的交通标识，而是扩展到红绿灯变化、交警手势、施工锥桶等动态三维信息。比如，系统能够识别潮汐车道标志，在拥堵路段也能顺畅变道。

其二，更自然的语音交互。

用户可以直接通过语音控制跟车距离、车速等，还能告知系统驾驶偏好。理想的“司机Agent”甚至能记忆用户习惯，用户曾提示某路段应以特定车速行驶，系统在下次经过时会主动沿用，不用再重复指令，以此实现人车共驾。

其三，更前瞻的风险预判。

系统不再是遇到风险才被动响应，而是能通过视觉识别、语言推理提前感知潜在危险。比如看到前方路面有积水痕迹，会预判“可能存在涉水风险”并主动减速等。

VLA玩家们都相信，VLA是端到端的2.0形态，一个形象比喻是：

端到端像猴子开车，会模仿人类动作，却缺乏对物理世界的理解；

VLA则像司机，甚至教练开车，既能理解规则，又能推理和灵活决策，从“学行为”进化为“懂意图”。

智能驾驶技术分水岭：VLA路线之争与L3时代前瞻 VLA技术端到端模型智能驾驶竞争世界模型第2张

只不过，现在的VLA优势还并不明显。

郎咸朋强调，当前智驾任务还比较简单，在L3、L4阶段，智驾作为Agent要独立完成复杂任务时，VLA才会获得碾压性胜利。

但也正因如此，在“VLA是否为行业终局答案”这一问题上，始终得打个问号。

02 VLA 可能还不在神坛上

当理想、元戎启行高举VLA大旗时，迎接它的并不是像“端到端”一般的技术光环，而是多重质疑。

这场由VLA引发的舆论漩涡，一共有三层。

第一层是真假VLA之辩。关键角色是小鹏，有意思的是，小鹏早期并未高调举起VLA大旗，它这张VLA玩家的身份牌还是元戎启行翻开的，此前元戎启行创始人周光表示，任何投入大算力、大参数模型研发的玩家，都大概率是VLA路线的潜在参与者。这就指向了小鹏。

直到小鹏G7 Ultra发布会上，小鹏才明确表态，基于3颗图灵芯片与双激光雷达，小鹏G7 Ultra支持全场景VLA，包括复杂路口决策、无车位泊车等功能，并在人机共驾模式下可以实现协同控制。

智能驾驶技术分水岭：VLA路线之争与L3时代前瞻 VLA技术端到端模型智能驾驶竞争世界模型第3张

然而，尽管隶属于VLA阵营，但小鹏把刀口对准的却是“队友”。

何小鹏声称，“只有我们做成了真正的VLA，部分公司做成的是一个嫁接的VLA。”

他对此解释为，VLA的落地需要数十亿资金投入。相比端到端，VLA要处理的是更高维度、非结构化的多模态信息，再将其转化为驾驶动作决策，复杂度指数级提升。用几个亿只能堆出一个“微型VLA”，本质上仍停留在端到端逻辑。

一句话，VLA玩家都必须是资源禀赋型选手，需要技术先进，更需要大量资金。

某种程度上，小鹏用“纯血VLA”的角度，揭开了VLA水面之下的暗角。

这就来到第二层，VLA的落地挑战。博世智能驾控中国区总裁吴永桥解释得很清楚，即VLA落地需面临三大障碍：

多模态大模型的特征对齐存在挑战；

多模态的数据获取和训练十分困难；

当前所有的智驾芯片实际都不支持VLA模型。

尤其是第三点，吴永桥举例，VLA理想化部署需达到7B-10B参数规模，但现有智驾芯片带宽有限。即便是一个3B模型，部署在英伟达Thor芯片上，频率也难以稳定维持在10Hz。

10Hz意味着系统每秒仅能完成10次感知与决策，放在驾驶场景中，就像一个“时常卡帧的机器人”。即使决策逻辑正确，但因为带宽不足、反应滞后，行车过程中仍会频繁出现延迟和卡顿，无法带来流畅、可靠的驾驶体验。

吴永桥并不否认VLA是个好方向，包括卓驭副总裁马陆也认同VLA可以走通，但难度很大。

马陆强调，VLA中的“L”并不是简单的语言大模型，不可能直接套用类似“通义千问”这样的现成模型，而是要从头开始，练成一个理解智能驾驶的司机大模型，它需要完整理解物理世界的真实尺度，这需要资源，也需要时间。

种种论断都构成一个基本事实：实现VLA并不容易。

而在此基础上，Momenta与华为对这一技术路径的审视已经来到第三层，VLA对于智驾的真伪性。

关于智驾是否有必要走VLA这条路，双方都予以否定。

在Momenta创始人曹旭东眼里，VLA只能算是锦上添花，还不足以扛起L4、L5的大任。最直接一点，VLA对于安全性的提升或许能达到5-10倍，但L4规模化落地需要的是100-1000倍安全提升，显然杯水车薪。

华为则坚定认为，VLA这一从机器人领域引入的技术路径，并不是为智驾而生。并且，由于VLA在空间感知与推理能力上存在天然短板，语言模型与动作决策本就难以对齐。

简单而言，VLA更像是一个伪命题。

相较之下，华为已经找到了新解法，在华为乾崑ADS 4上，打造出WEWA世界模型架构，通过端云结合的系统训练，行为模型可以直接控制车辆，时延更低。

智能驾驶技术分水岭：VLA路线之争与L3时代前瞻 VLA技术端到端模型智能驾驶竞争世界模型第4张

华为认为，世界模型才是通往智驾终局的正确路径。

某种程度上，从小鹏、博世、卓驭再到Momenta、华为，关于VLA的争论，其实反应出各家差异化的技术逻辑，大多时候，技术路径无关对错，关乎选择和资源博弈。

03 把鸡蛋放进最近的篮子里

过去一年，端到端热潮无疑让智能驾驶的步子迈得更大，尤其是“车位到车位”的功能落地，不仅重新划分了“第一梯队”入场标准，也让用户清晰感知到智驾进步带来的先进体验。

然而，“车位到车位”之后，整个智驾行业进入了“功能停滞”的瓶颈期。

一方面，监管给激进的智驾宣传按下暂停键，四月份开始，工信部、市场监管总局出台《关于进一步加强智能网联汽车产品准入、召回及软件在线升级管理的通知》等系列新规，对“自动驾驶”、“高阶智驾”等用语予以禁止，把智驾安全提到绝对优先层面，并规定车企每一次OTA更新，都需经过备案才能上线。

另一方面，L3级智能驾驶政策还未放开，相当于，各车企、供应商还是停留在智驾体验优化层面，给L2后缀继续添加“+”，用户能感知到的“利己效益”并不明显。

这也是Momenta、卓驭等玩家目前并不看好VLA的主要原因，VLA的确能在用户体验上“整花活”，比如语音控车、人机共驾，但大概率不能给智驾带来成倍级的体验革命。

站在L2+的起点上，智驾行业每向前走一步，都会面临更棘手的难题。越是到攻坚期，选择哪条路就越发重要，毕竟，任何一条技术路线背后，都是对算力、数据的巨额消耗。

这也意味着，大家更愿意把鸡蛋放进最近的篮子里。

一是押注确定性，几乎所有玩家都坚定选择了强化学习、世界模型的技术路径，VLA本质上与这两者也并不冲突，在理想关于VLA的规划版图中，第四阶段就是基于世界模型进行强化训练，将系统打造成职业司机。

二是降低不确定性。智能驾驶的下半场，将是一场拼资金、拼技术、拼成本的拉锯战。因此，从有图，到无图，再到端到端路线，大家都是稳扎稳打走向下一阶段，基于各自既定的技术价值观，或者说，复用已有的数据和算法积累，确定下一步落子位置。

目前位列智驾第一梯队的玩家们，可以看出打法各异：

理想、元戎启行、小鹏选择押注VLA。强调高投入、算力密集型路线，追求VLA大模型的上限。

三家也的确通过资源配置为VLA铺路，像小鹏通过自研图灵芯片，算力超过750TOPS，并打造出72B参数的基座大模型，为VLA大模型提供充裕算力支持；元戎启行早期就研究GPT大语言模型，探索VLA方向，并聚焦英伟达Thor芯片的上车应用；而理想在端到端时期就乘上了“端到端+VLM”的列车，朝向VLA的方向。

另外，理想、小鹏都有自研人形机器人计划，而VLA在具身智能与智能驾驶的通用性，也指向了二者对于VLA的长远战略布局。

而未选择VLA路线的玩家们也是基于自身技术价值观，锚定最优解。

华为、地平线强调结构性解法，走体系化路线。华为凭借云端算力和AI大模型基础，构建出WEWA世界模型，主打“无弱点”的原生架构；地平线基于自研高性能计算平台征程6P，强调软硬一体优势，打造出“中国版FSD”。

智能驾驶技术分水岭：VLA路线之争与L3时代前瞻 VLA技术端到端模型智能驾驶竞争世界模型第5张