随着L3级自动驾驶的拐点日益临近,智能驾驶领域正迈向以VLA技术为核心的关键分水岭。
此前相对统一的“智驾第一阵营”现已分化为两条截然不同的技术路径:
理想、小鹏、元戎启行组成一队,高举VLA旗帜,全力将VLA技术推向应用前沿;
华为、Momenta、博世、卓驭等玩家则站在对立面,对VLA技术持保留态度,甚至直言不讳地泼出冷水。
当一部分企业将VLA视为指引方向的明灯时,另一部分却在质疑其是否真能“照亮前路”。
通过以下三个核心问题,我们试图厘清关于VLA的争议焦点:
VLA能为智能驾驶解决哪些关键难题?
VLA落地应用面临哪些挑战?
VLA是否是智能驾驶终局的最优解?
智能驾驶早已超越“抄袭作业”的时代,没有标准答案可循,各方都在探索中前行。
当下智能驾驶的比拼,已不仅是技术路径的分野,更是技术选择背后资源分配策略与定力的较量,体现的是深层技术价值观。
正如理想和元戎坚信,VLA尽管进展缓慢,但其性能上限必然高于端到端模型。
大家都在押注长期主义,但谁的布局会率先显验,仍需时间给出答案。
端到端固然是一条捷径,它重构了底层逻辑,从传统规则驱动转变为数据驱动。
但当几乎所有玩家都登上端到端这艘大船后,才发现船只未必能顺利靠岸。
端到端两大缺陷横亘眼前:
一是车辆为何如此行动,原因难以解释。
传统端到端是一个黑箱,传感器信号如何转化为驾驶动作难以追溯,无法提供清晰的决策逻辑。例如车辆突然急刹,原因可能是探测到行人,也可能是将阴影误判为障碍物,但系统并不会说明“为什么”。
二是遇到未见过的场景,系统便束手无策。
端到端完全依赖数据驱动,未经历的场景往往无法处理。尤其在动态突发情况下,如行人突然横穿马路,系统只能依赖过往类似案例被动响应,反应滞后。此外,模型只能识别像素级特征(如红灯形状),却无法理解语义级规则,比如红灯代表禁止通行。
端到端可以解决智能驾驶90%的难题,但剩余的10%,却始终难以跨越。
智能驾驶安全显然不能停留在90%的基准线,要向前推进,业内普遍共识是用规则兜底,在端到端网络之外写入规则代码,教会系统基本交通法则,确保合理行驶。
但兜底更像是最后一道防线,面对错综复杂的极端情况,需要更加“治本”的方式。
于是,VLA(视觉-语言-动作大模型)跃入技术舞台中央。
这项技术最早由谷歌旗下的DeepMind提出,其标志性成果为机器人领域的RT-2模型,通过整合视觉感知、语言推理和动作控制,首次实现了从图像观察和文本指令到物理动作的端到端控制。
理想、元戎启行将其引入智能驾驶领域,目的也是借助VLA能力突破端到端的瓶颈。
VLA的关键点在于,在“VA(视觉-动作)模式”中间加入了“Language(语言)”这一关键桥梁。
理想智驾负责人郎咸朋强调,“L”指代语言学习能力,它并非简单用语言做显式的文字推理,而是用语言提供的数据学习做隐式的逻辑推理。
这就好比人与动物的区别,人的视觉能力、行动速度都不如动物,但凭借强大的认知和理解能力,能够比动物更胜一筹。
相当于,VLA的核心任务,就是让系统具备长“思维链”,这落实到性能体验上,会带来三方面提升。
其一,更全维度的“路牌”理解。
这里的“路牌”不再局限于平面的交通标识,而是扩展到红绿灯变化、交警手势、施工锥桶等动态三维信息。比如,系统能够识别潮汐车道标志,在拥堵路段也能顺畅变道。
其二,更自然的语音交互。
用户可以直接通过语音控制跟车距离、车速等,还能告知系统驾驶偏好。理想的“司机Agent”甚至能记忆用户习惯,用户曾提示某路段应以特定车速行驶,系统在下次经过时会主动沿用,不用再重复指令,以此实现人车共驾。
其三,更前瞻的风险预判。
系统不再是遇到风险才被动响应,而是能通过视觉识别、语言推理提前感知潜在危险。比如看到前方路面有积水痕迹,会预判“可能存在涉水风险”并主动减速等。
VLA玩家们都相信,VLA是端到端的2.0形态,一个形象比喻是:
端到端像猴子开车,会模仿人类动作,却缺乏对物理世界的理解;
VLA则像司机,甚至教练开车,既能理解规则,又能推理和灵活决策,从“学行为”进化为“懂意图”。
只不过,现在的VLA优势还并不明显。
郎咸朋强调,当前智驾任务还比较简单,在L3、L4阶段,智驾作为Agent要独立完成复杂任务时,VLA才会获得碾压性胜利。
但也正因如此,在“VLA是否为行业终局答案”这一问题上,始终得打个问号。
当理想、元戎启行高举VLA大旗时,迎接它的并不是像“端到端”一般的技术光环,而是多重质疑。
这场由VLA引发的舆论漩涡,一共有三层。
第一层是真假VLA之辩。关键角色是小鹏,有意思的是,小鹏早期并未高调举起VLA大旗,它这张VLA玩家的身份牌还是元戎启行翻开的,此前元戎启行创始人周光表示,任何投入大算力、大参数模型研发的玩家,都大概率是VLA路线的潜在参与者。这就指向了小鹏。
直到小鹏G7 Ultra发布会上,小鹏才明确表态,基于3颗图灵芯片与双激光雷达,小鹏G7 Ultra支持全场景VLA,包括复杂路口决策、无车位泊车等功能,并在人机共驾模式下可以实现协同控制。
然而,尽管隶属于VLA阵营,但小鹏把刀口对准的却是“队友”。
何小鹏声称,“只有我们做成了真正的VLA,部分公司做成的是一个嫁接的VLA。”
他对此解释为,VLA的落地需要数十亿资金投入。相比端到端,VLA要处理的是更高维度、非结构化的多模态信息,再将其转化为驾驶动作决策,复杂度指数级提升。用几个亿只能堆出一个“微型VLA”,本质上仍停留在端到端逻辑。
一句话,VLA玩家都必须是资源禀赋型选手,需要技术先进,更需要大量资金。
某种程度上,小鹏用“纯血VLA”的角度,揭开了VLA水面之下的暗角。
这就来到第二层,VLA的落地挑战。博世智能驾控中国区总裁吴永桥解释得很清楚,即VLA落地需面临三大障碍:
多模态大模型的特征对齐存在挑战;
多模态的数据获取和训练十分困难;
当前所有的智驾芯片实际都不支持VLA模型。
尤其是第三点,吴永桥举例,VLA理想化部署需达到7B-10B参数规模,但现有智驾芯片带宽有限。即便是一个3B模型,部署在英伟达Thor芯片上,频率也难以稳定维持在10Hz。
10Hz意味着系统每秒仅能完成10次感知与决策,放在驾驶场景中,就像一个“时常卡帧的机器人”。即使决策逻辑正确,但因为带宽不足、反应滞后,行车过程中仍会频繁出现延迟和卡顿,无法带来流畅、可靠的驾驶体验。
吴永桥并不否认VLA是个好方向,包括卓驭副总裁马陆也认同VLA可以走通,但难度很大。
马陆强调,VLA中的“L”并不是简单的语言大模型,不可能直接套用类似“通义千问”这样的现成模型,而是要从头开始,练成一个理解智能驾驶的司机大模型,它需要完整理解物理世界的真实尺度,这需要资源,也需要时间。
种种论断都构成一个基本事实:实现VLA并不容易。
而在此基础上,Momenta与华为对这一技术路径的审视已经来到第三层,VLA对于智驾的真伪性。
关于智驾是否有必要走VLA这条路,双方都予以否定。
在Momenta创始人曹旭东眼里,VLA只能算是锦上添花,还不足以扛起L4、L5的大任。最直接一点,VLA对于安全性的提升或许能达到5-10倍,但L4规模化落地需要的是100-1000倍安全提升,显然杯水车薪。
华为则坚定认为,VLA这一从机器人领域引入的技术路径,并不是为智驾而生。并且,由于VLA在空间感知与推理能力上存在天然短板,语言模型与动作决策本就难以对齐。
简单而言,VLA更像是一个伪命题。
相较之下,华为已经找到了新解法,在华为乾崑ADS 4上,打造出WEWA世界模型架构,通过端云结合的系统训练,行为模型可以直接控制车辆,时延更低。
华为认为,世界模型才是通往智驾终局的正确路径。
某种程度上,从小鹏、博世、卓驭再到Momenta、华为,关于VLA的争论,其实反应出各家差异化的技术逻辑,大多时候,技术路径无关对错,关乎选择和资源博弈。
过去一年,端到端热潮无疑让智能驾驶的步子迈得更大,尤其是“车位到车位”的功能落地,不仅重新划分了“第一梯队”入场标准,也让用户清晰感知到智驾进步带来的先进体验。
然而,“车位到车位”之后,整个智驾行业进入了“功能停滞”的瓶颈期。
一方面,监管给激进的智驾宣传按下暂停键,四月份开始,工信部、市场监管总局出台《关于进一步加强智能网联汽车产品准入、召回及软件在线升级管理的通知》等系列新规,对“自动驾驶”、“高阶智驾”等用语予以禁止,把智驾安全提到绝对优先层面,并规定车企每一次OTA更新,都需经过备案才能上线。
另一方面,L3级智能驾驶政策还未放开,相当于,各车企、供应商还是停留在智驾体验优化层面,给L2后缀继续添加“+”,用户能感知到的“利己效益”并不明显。
这也是Momenta、卓驭等玩家目前并不看好VLA的主要原因,VLA的确能在用户体验上“整花活”,比如语音控车、人机共驾,但大概率不能给智驾带来成倍级的体验革命。
站在L2+的起点上,智驾行业每向前走一步,都会面临更棘手的难题。越是到攻坚期,选择哪条路就越发重要,毕竟,任何一条技术路线背后,都是对算力、数据的巨额消耗。
这也意味着,大家更愿意把鸡蛋放进最近的篮子里。
一是押注确定性,几乎所有玩家都坚定选择了强化学习、世界模型的技术路径,VLA本质上与这两者也并不冲突,在理想关于VLA的规划版图中,第四阶段就是基于世界模型进行强化训练,将系统打造成职业司机。
二是降低不确定性。智能驾驶的下半场,将是一场拼资金、拼技术、拼成本的拉锯战。因此,从有图,到无图,再到端到端路线,大家都是稳扎稳打走向下一阶段,基于各自既定的技术价值观,或者说,复用已有的数据和算法积累,确定下一步落子位置。
目前位列智驾第一梯队的玩家们,可以看出打法各异:
理想、元戎启行、小鹏选择押注VLA。强调高投入、算力密集型路线,追求VLA大模型的上限。
三家也的确通过资源配置为VLA铺路,像小鹏通过自研图灵芯片,算力超过750TOPS,并打造出72B参数的基座大模型,为VLA大模型提供充裕算力支持;元戎启行早期就研究GPT大语言模型,探索VLA方向,并聚焦英伟达Thor芯片的上车应用;而理想在端到端时期就乘上了“端到端+VLM”的列车,朝向VLA的方向。
另外,理想、小鹏都有自研人形机器人计划,而VLA在具身智能与智能驾驶的通用性,也指向了二者对于VLA的长远战略布局。
而未选择VLA路线的玩家们也是基于自身技术价值观,锚定最优解。
华为、地平线强调结构性解法,走体系化路线。华为凭借云端算力和AI大模型基础,构建出WEWA世界模型,主打“无弱点”的原生架构;地平线基于自研高性能计算平台征程6P,强调软硬一体优势,打造出“中国版FSD”。
博世主打工程化落地能力,依托全产业链协同与车规级品控经验,继续强化一段式端到端,强调快速量产能力;
卓驭则是“性价比”标签,聚焦主流车型需求,通过精简传感器配置与算法轻量化优化,打造高适配性的入门级方案。
Momenta继续强调数据飞轮,强调商业可扩展性、成本可控。在“飞轮模式”驱动下,Momenta将通过强化学习打造出新一代R6飞轮大模型。
在技术演进的道路上,每一项决策,都是取自于边际成本与边际效益的最优计算结果。
话说回来,智驾行业上一次这么热闹,还是为“纯视觉还是激光雷达路线”争论不休,而争论归于平静后,大家得到得共识是,纯视觉也好,激光雷达也罢,只要能保证丝滑、可靠的智能驾驶,都是可行路线。
VLA之争同理,具体用哪种技术路径,本就不是行业该纠结的落脚点。用户在真实道路上能否感受到更平顺的行驶质感、更可靠的安全保障,远比选择哪种大模型更重要。
今天,能把智驾体验做到极致的玩家,才有机会在L3起跑时真正领先。
本文由主机测评网于2025-12-30发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20251213984.html