在2025年8月的最后一周,中国智能驾驶领域突然加速发展,从算法基础到整车OTA升级,整个行业在短短几天内呈现出“VLA全面爆发”的壮观景象。
VLA,即视觉-语言-行动模型,其快速商业化应用正在重新定义高阶智能驾驶的技术标准。
理想汽车率先借助纯电旗舰i8上市契机,向全量用户推送了“VLA司机大模型”;元戎启行于8月26日正式发布自研VLA大模型,推出名为DeepRoute IO 2.0的新平台,计划在5款车型上应用,覆盖累计约20万台车辆。
紧接着,小鹏汽车在8月27日的新P7发布会上展示了新一代VLA架构,宣称时延低于100毫秒、规划帧率20赫兹,刷新了量产车的性能天花板。
与此同时,华为代表的另一大技术路线——世界行为模型(WA),也正在紧密筹备中。ADS 4.0将在9月随问界M9年度改款OTA推送,试图重新划定城区智能驾驶的体验基线。
从商业角度看,“VLA上车潮”之所以在2025年爆发,是因为今年正处于城市NOA规模化交付(L2++)与Robotaxi商业化(L4)之间的“空档期”。谁先实现VLA量产,谁就能在下一阶段的用户体验和融资叙事中占据先机;错过2025年,技术红利将被稀释,成本优势也将被供应链摊平。
VLA掀起的新一轮竞争,不仅将决定中国车企的未来地位,更可能引发整个智能驾驶产业的重新洗牌。
简要概述VLA路线的技术优势,其核心在于:
与传统端到端方法相比,VLA通过引入语言和文字作为中间环节,将具体的路况和图像信息进行分类和抽象化处理,而非单纯依赖数据的死记硬背,从而使模型具备更好的泛化能力。
同时,在具备思维链(CoT)能力后,VLA模型能够将驾驶决策分解为逻辑连贯的中间步骤,增强决策的逻辑性、系统可解释性及泛化能力。
当人类驾驶员面对突发路况时,会本能地完成“观察→判断→动作”的连贯认知过程。
VLA(视觉-语言-动作模型)正是通过模拟这一逻辑,构建起“视觉感知-语言推理-动作输出”的闭环系统,实现对几十秒长时序路况的预判能力,尤其在施工路段等长尾场景中展现出更强的泛化能力。
然而,由于增加了“语言”这一层数据,VLA对算力和数据的需求,已将“上车”门槛提升到传统方案无法企及的高度。在算力方面,训练端需要吞吐22T token级别的多模态数据,单次训练规模相当于DeepSeek-V3的1.5倍;
在数据方面,VLA需要同步采集并标注视觉-语言-动作三元组,理想训练所用的数据中,90%来自29.3亿公里的实车日志,10%由生成式仿真补足,长尾极端场景(如雨夜、施工、异形障碍物)需要额外5-10倍的数据密度才能收敛,导致单车数据成本与端到端时代相比急剧增加。
在算力方面,理想、小鹏分别动用了13 EFLOPS和8 EFLOPS的云端集群,仅千卡周级调度才能满足30B-72B参数模型的收敛窗口。公开数据显示,国内中小车企云端训练集群普遍停留在0.2–0.6 EFLOPS,仅为理想5.39 EFLOPS的十分之一,更不用说特斯拉Dojo年底100 EFLOPS的规模。
以哪吒为例,其乌兰察布GPU集群峰值180 PFLOPS,尚不足以在30天内完成一次7B参数VLA模型收敛;若租用公有云,按当前A100/H100现货价折算,单次训练即需1.2–1.5亿元人民币,相当于其2024年全年研发预算的40%。
这意味着,VLA的量产落地是“千卡训练云+千TOPS车端+千亿级数据”三线并进的极限工程,任何一环缺口都会使ROI变为负值。
对于年销量仅十余万辆的中小车企而言,如此高昂的投入难以通过规模化摊薄,且失败风险高企。正如元戎启行CEO周光指出,一家智驾公司需交付10万辆级量产车,才具备搭建VLA架构的基本数据基础。
更重要的是,从规则时代到VLA的跃迁并非一蹴而就,而是一段必须在工程实践中逐级“淬火”的链式反应。
在VLA路线所需的高昂成本面前,中小车企的生存困境愈发明显。除了算力与数据方面的差距外,从规则时代到端到端1.0积累的先发优势所构建的技术护城河,也是多数二线品牌难以复现的关键环节。
最初,规则算法用显式代码与人工先验,将驾驶任务拆解为可验证的模块,为团队留下可解释、可追责的体系化思维与场景分类框架;
进入端到端1.0后,系统首次用大规模标注数据替代人工规则,迫使组织完成数据闭环、工具链、DevOps的原始积累,同时暴露出长尾场景对数据密度的极端需求;
最终在迈向VLA时,团队需要将前两阶段沉淀的工程学积累整体迁移到新框架中,才能实现“视觉—语言—行动”的高度统一。
理想汽车李想也曾直言,若企业连规则算法都做不好,则根本无从知晓如何训练VLA模型。
在这样的差距下,VLA路线的到来,无疑会让行业迎来一次“大洗牌”。中低端车企和品牌,要么难以在新时代生存,要么只能沦为“方案外购者”,或成为“车企的富士康”,从事低端代工,利润被芯片厂和算法公司两头挤压。
在端到端1.0时代,虽然绝大多数中低端车在“数据-模型-芯片”三件套中,极少能完全自研,本质上是“拼积木”式集成。
但过去车企可以掏钱购买Orin芯片、购买算法、购买标注服务,大家都能活得不错。
例如哪吒、零跑、宝骏等普遍采用英伟达Orin-X或地平线征程5的“公版域控”;数据方面,零跑C10的2.1亿公里有效里程中,60%的标注任务由Momenta、觉非科技完成;
但是到了端到端2.0时代,“外包式生存”在2.0时代被上游供应商自己“关门”了——由于VLA路线导致的算力、数据成本骤增,现在这三样变成了“限量款”,而且限量权掌握在极少数巨头手里。
例如英伟达今年首批Thor-U的40万片产能,早已被理想、蔚来、小鹏在2024年就签完长期锁价锁量协议,拿走32万片,只留8万片现货需要溢价30%竞拍。
原本“谁掏钱谁就能买到”的开放供应链,在2025年因为芯片缺货、模型架构改变导致的算法捆绑,被压缩成“少数玩家内部闭环”,中小车企连“买方案”这条退路都被截断。
在此情况下,中小车企面临的生存困境愈发明显,当头部企业通过"芯片-数据-模型"的闭环能力构建起技术壁垒时,中小车企便陷入一个死循环:买芯片没配额,买模型要持续分成,攒数据没钱也没人。
中小车企唯一还能做的,就是融入供应链,把整车制造、冲压焊接、总装测试这些传统环节做到极致良率和极致成本——这正是富士康在手机行业扮演的角色。
尽管当前VLA模型十分火热,但在智能驾驶方面,并非所有车企都认可这一路线。
除了VLA路线,目前华为和蔚来主推的是另一条路线:世界模型(WA)。其核心思路是“海量使用云端模拟的数据,来让大模型‘理解’世界而学会驾驶”。
例如华为的World Action Model模型(WA),利用扩散生成模型批量“制造”Corner case,也就是通过AI生成大量的视频案例,来让模型理解物理规则。
而蔚来的NIO World Model(NWM),则通过将激光雷达+视觉压缩成3D token;再通过自回归模型一次推演5秒后的多帧场景,从而“想象”出从未见过的路况。
WA与VLA两条路线的区别,或许可以概述为:世界模型是“理想主义的未来豪赌”,VLA是“实用主义的当下生存”。
但在华为看来,语言模型擅长文本推理,却缺乏对三维空间的精确感知与运动推演能力。
而汽车毕竟是在真实空间中运动的物体,毫厘之差可能就意味着风险。
唯有让模型真正理解物理规则,才能从根本上解决端到端模型“只会模仿、不会思考”的瓶颈。
但尽管世界模型看上去更“终极”,VLA这条更“务实”的路线,对理想、小鹏等车企来说,仍然有着“改命”的意义。
一方面,2024年理想以50万辆交付量登顶新势力,但单车毛利率从21.5%下滑至19.8%,增程市场被华为、蔚来、小鹏全面围剿(如华为问界M8、蔚来乐道直指L7/L8)。对理想来说,冰箱彩电大沙发已不再亮眼,必须用智能化重新定义产品。
而小鹏目前在纯电市场追赶比亚迪、特斯拉,其正在推进的机器人也需要通用AI基座。小鹏选择VLA混合架构,本质是“一箭双雕”:其72B云端基座模型,本质是VLA的超大型版本,既服务汽车,也为将来的机器人铺路。
对二者来说,VLA是“唯一能把长尾一口气吃掉”的可行框架,并且,理想、小鹏积累的数据密度已经足够让VLA越过“冷启动死亡谷”,这是后来者无法复制的壁垒。
从市场的角度看,虽然华为与Momenta已占据2025年智驾市场90%份额。这样的双寡头地位难以撼动。且华为现在的智驾地位,靠的不是单模型大小、强弱,而是“数据+软硬一体+车厂”绑定三位一体的护城河。
然而,VLA大模型的普及,会显著改变竞争格局,形成技术路线分化、市场份额重组。
传统智驾模型是:你给多少场景、多少样本,模型就记住多少,每新增一个少见场景都得补数据。华为在这层面确实通过规模碾压了竞争对手。
但是VLA模型不同。它的魔力在于多模态学习和推理能力——通过“视觉+语言+行为”三种输入,让模型“理解”得更深刻,不只是记住,而是学会类人推理;这使理想、小鹏等车企,在长尾场景上也能获得接近华为的表现。
所以,在新一轮的智驾竞争中,现有的格局不会立刻翻盘,但VLA已经打开了一个新的窗口。
可以说,随着新一轮技术升级的到来,中小车企的危局,以及头部之间差距的缩小,将成为一种愈发显著的趋势。
2025年既可能是华为、特斯拉的“巅峰时刻”,也可能是理想、小鹏等VLA实践者的“逆袭元年”。
在这场智能主权的争夺中,只有那些率先突破核心壁垒、构建差异化优势的企业,才能最终杀出重围。
本文由主机测评网于2025-12-28发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20251213524.html