当前位置:首页 > 科技资讯 > 正文

特斯拉自动驾驶ICCV技术分享:端到端架构演进与行业竞争新态势

在沉寂两年多后,特斯拉终于再次公开分享其智能驾驶技术的最新进展。

与以往在AI Day舞台上展示不同,此次特斯拉选择在近期举办的计算机视觉顶级会议ICCV(International Conference on Computer Vision)期间,披露自家智能辅助驾驶算法的突破。

特斯拉自动驾驶副总裁阿肖克·埃鲁斯瓦米(Ashok Elluswamy)作为特邀嘉宾,在大会上发表了主题演讲。

或许是为了衔接2023年6月提出端到端架构后的“沉默期”,阿肖克从“特斯拉为何选择端到端?”切入主题,但经过多年实践,他们发现仅依靠端到端架构来实现卓越的智能辅助驾驶,仍面临诸多挑战。

特斯拉自动驾驶ICCV技术分享:端到端架构演进与行业竞争新态势 特斯拉 自动驾驶 端到端 世界模型 第1张

图源Tesla AI

首要挑战在于端到端系统需处理从极高维度到极低维度的映射问题,这种映射往往呈多对一关系,因此确保输出准确性使得训练难度显著增加。阿肖克的言外之意,或许是在凸显端到端模型的“黑箱”特性。

依托庞大的用户基础,特斯拉每日可获取相当于500年驾驶时长的数据,但其中大部分属于常规场景数据,价值有限,对算法长期泛化能力提升帮助不大。

为应对这些挑战,特斯拉在架构和算法层面进行了优化调整,例如在输出决策控制指令前,新增了OCC占用网络和3D高斯特征等视觉信息输出,以及思维链COT自然语言信息。

同时,基于海量真实数据,特斯拉构建了名为“神经世界模拟器”的闭环仿真系统。该系统不仅能训练算法,还可验证算法正确性,如同兼具“训练场”与“考场”功能。

读到此处,是否感到似曾相识?这正是国内车企及自动驾驶企业布局的VLA模型和世界模型。换言之,特斯拉已从昔日讲台上的“老师”,转变为与理想、小鹏、吉利、华为、地平线和Momenta共同探索智驾终极方案的“同学”。

或许正因如此,小鹏汽车CEO何小鹏曾表示:“实际上,国内任何有实力的AI玩家,早已不关注马斯克在做什么了”。

不仅如此,两位曾负责特斯拉Autopilot和自动驾驶项目的前高管,近期也对特斯拉自动驾驶进展表达了忧虑。毕竟,特斯拉最新财报显示,FSD订阅比例仅约12%。

不再是智驾行业“标准答案”的特斯拉,未来将驶向何方?

01、VLA与世界模型之争,特斯拉:融合并进

提出端到端架构两年后,特斯拉仍视该架构为核心。

端到端架构能减少从感知输入到控制输出的信息损耗。以鸡、鹅等小动物过马路场景为例,传统模块化模型在信息传递中易丢失部分数据,导致输出端形成信息瓶颈,无法做出正确决策。

而端到端架构能确保决策控制端基于丰富信息,结合神经网络和数据驱动从大量人类驾驶行为中学习“经验”,从而做出安全有效的驾驶行为。

因此,端到端架构信息密度极高。简单估算:输入端在30秒内以36Hz频率采集的7路500万像素摄像头视频、数英里导航地图、100Hz车速与IMU信息,甚至大量音频数据,整体信息维度相当于20亿token。

对特斯拉而言,输出端仅是方向与加减速控制信息,约2个token,这意味着端到端需解决从极高维到极低维、多对一的映射问题,犹如从乱麻中找出唯一正确的线头。

特斯拉自动驾驶ICCV技术分享:端到端架构演进与行业竞争新态势 特斯拉 自动驾驶 端到端 世界模型 第2张

端到端模型,图源SEA

简言之,阿肖克所指正是行业常见的端到端模型问题——由于信息维度压缩和深度神经网络非线性特性,“黑箱”与不可解释性难以避免。

此外,训练数据方面特斯拉也遇瓶颈。据阿肖克介绍,凭借庞大用户群,特斯拉每日接收相当于500年驾驶时长的数据,虽令行业羡慕,但多数属简单常规场景。

换言之,特斯拉与中国玩家类似,缺乏真实高质量数据“喂养”算法。毕竟高质量难例数据可遇不可求,正如地平线CEO余凯所言:“在AI时代,99%的人类数据不值得学习”。

特斯拉此次技术分享的重点,正是针对上述问题的解决方案。

针对最新端到端架构,阿肖克称其“并非完全‘黑箱’系统”。据他介绍,当前端到端架构在输出决策规划信号前,会输出多种中间结果,包括以OCC占用网络和3D高斯特征为主的场景重建视觉信息,以展示环境感知细节。

此外,特斯拉引入思维链COT(Chain-of-Thought),训练算法用自然语言解释自身行为并预测后续轨迹。这些中间结果不仅可用于SR界面渲染,还能用于研发校验与调优,确保模型输出准确性。

特斯拉自动驾驶ICCV技术分享:端到端架构演进与行业竞争新态势 特斯拉 自动驾驶 端到端 世界模型 第3张

特斯拉具备可解释输出模型,图源Tesla AI

理想车主对上述描述应很熟悉,因其常见于前排屏幕的路径规划与思维过程显示。这即VLA模型中的“L”(语言)部分,结合V(视觉)的2D、3D信息,以及MoE、Diffusion模型和A(行动)部分,构成VLA模型。

目前除理想外,小鹏、元戎启行和千里科技(千里浩瀚9H方案)等品牌也采用VLA架构构建智驾系统或方案,使智驾功能更易交互且行为更拟人化。

对特斯拉而言,目标一致,但他们同时致力于构建算法评价模型。

据阿肖克介绍,特斯拉基于海量真实用户数据,在云端打造了“神经世界模拟器”(neural world simulator)。

其用途有三:通过闭环仿真验证端到端指令正确性;利用场景编辑生成对抗样本检验模型能力;通过模拟器在闭环仿真中获取人类驾驶真值。

简言之,基于真实用户驾驶视频数据,一方面生成现实难获的难例数据,在云端训练迭代智驾算法;另一方面,将训练好的算法置于生成的世界模型中进行仿真评价测试,通过强化学习针对性提升模型能力。

这如同特斯拉为FSD在云端建立的闭环“驾校”与“考场”。相比现实世界高质量数据获取之难,神经世界模拟器可实现算法训练与评价的穷尽探索。

特斯拉自动驾驶ICCV技术分享:端到端架构演进与行业竞争新态势 特斯拉 自动驾驶 端到端 世界模型 第4张

特斯拉闭环模拟神经网络模型,图源Tesla AI

实际上,此类云端世界模型并非特斯拉首创,理想、小鹏、零跑、华为乾崑和商汤绝影等国内玩家早已布局。

其中,以华为乾崑为代表的玩家,在构建云端世界模型同时,还在车端部署世界模型,如华为乾崑的车端世界行为模型WA,基于视觉、听觉和触觉等感知数据经Token化训练而成的原生基模型。

由此,国内智驾行业呈现端到端、VLA和世界模型三种技术路线并立格局。但从分析看,特斯拉最新智驾方案可能涵盖了三者。

特斯拉此举并非简单“集百家之长”,因在行业观察者看来,端到端、VLA和世界模型非纯粹竞争关系,而是以端到端为基础、VLA和世界模型为升级的动态融合演进关系。

例如,主流玩家无论在车端部署端到端、VLA或世界模型,均需在云端建立更大参数量的世界模型进行仿真生成训练与评价,且部分玩家车端模型源自云端世界模型的修剪与蒸馏。正因如此,何小鹏、李想和余承东等业界领袖此前均对世界模型给予积极评价。

此外,特斯拉布局VLA和世界模型,还旨在支持机器人业务发展。

据阿肖克表示,特斯拉闭环仿真引擎可迁移至机器人领域,而机器人Optimus与自动驾驶FSD技术栈的统一,为未来Cross Embodiment(跨实体具身)带来的泛化具身AI发展开拓广阔想象空间。

特斯拉自动驾驶ICCV技术分享:端到端架构演进与行业竞争新态势 特斯拉 自动驾驶 端到端 世界模型 第5张

图源特斯拉官微

相比之下,理想和小鹏两家车企布局VLA和世界模型更早,且均宣称“要成为AI企业”,他们可能与特斯拉有相似规划。

只不过,相比昔日举办AI Day的特斯拉,如今的特斯拉已褪去光环,与理想、小鹏、华为乾崑和地平线等国内玩家站在同一梯队。

据行业观察,此次特斯拉技术分享后,相比之前AI Day后朋友圈刷屏的热度,此次反响平淡许多,可见业界对特斯拉动态的关注度已不如前。

毕竟除技术进展外,特斯拉在其他方面的表现亦不尽如人意。

02、承诺、质疑与用户冷遇,特斯拉FSD前路何在?

时至2025年,马斯克仍在为自动驾驶“描绘蓝图”。

在最近第三季度财报会上,马斯克称特斯拉有望年底前在8至10个新州展开Robotaxi运营,包括内华达州、佛罗里达州和亚利桑那州等对自动驾驶政策宽松的大州。

而在上季度财报会上,马斯克曾表示特斯拉将在年底前让Robotaxi覆盖美国50%人口,并预计年底前通过软件更新使车辆具备无需监督的全自动驾驶能力(L5)。

对马斯克此类“蓝图”,业界早已习以为常,因自2016年起,马斯克便鼓吹FSD将尽早实现全自动驾驶,但每次承诺均未如期兑现。

正因如此,曾负责特斯拉自动驾驶业务的前高管们纷纷发声。

特斯拉前人工智能主管安德烈·卡帕西(Andrej Karpathy)近期在播客中表示特斯拉自动驾驶问题远未解决。据悉,他于2017-2022年领导特斯拉自动驾驶项目。

在安德烈看来,自动驾驶迭代如同无限接近100%的过程,此前是无数个9的积累。他回忆道,其领导期间特斯拉自动驾驶经历了两到三个“9”的迭代,虽显著减少驾驶员接管干预,但此后进步放缓。

特斯拉自动驾驶ICCV技术分享:端到端架构演进与行业竞争新态势 特斯拉 自动驾驶 端到端 世界模型 第6张

特斯拉无接管驾驶干预百分比,图源Electrek

安德烈之前,斯特林·安德森被公认为特斯拉自动驾驶项目首任负责人,其于2015-2016年领导特斯拉Autopilot发展,现为通用汽车全球产品部门负责人。

在近期通用汽车活动中,斯特林对特斯拉自动驾驶发展提出质疑:“通用Super Cruise系统已实现约11亿公里无接管行驶,且无一起技术导致的事故。但特斯拉自动驾驶系统未能达到同等安全记录。”

在此背景下,特斯拉目前在奥斯汀和旧金山运营的Robotaxi均配备安全员,作为系统失效时的安全兜底。其中奥斯汀区域安全员坐副驾,旧金山安全员坐主驾。

按马斯克规划,年底前将移除奥斯汀大部分安全员,未来几个月内预期至少在奥斯汀部分区域实现完全无安全员运营。马斯克解释称“人类监控员存在非因技术缺陷,而是出于高度谨慎”。

然而,且不说与特斯拉同台竞技的Waymo已实现无安全员商业化运营,小马智行、文远知行和萝卜快跑等中国玩家更早实现了Robotaxi无安全员常态化运营。

Robotaxi未按马斯克预期速度发展的同时,特斯拉智能辅助驾驶业务也受阻。

特斯拉第三季度财报会上,首席财务官瓦伊巴夫・塔内贾(Vaibhav Taneja)公开承认,上季度FSD相关收入同比下滑,主因“付费使用FSD的客户总量仍很小,仅占现有车队约12%”。

特斯拉自动驾驶ICCV技术分享:端到端架构演进与行业竞争新态势 特斯拉 自动驾驶 端到端 世界模型 第7张

特斯拉FSD,图源特斯拉官微

今年特斯拉虽下调FSD美国市场售价,买断价从12000美元(约85350元人民币)降至8000美元(约56900元人民币),并推出99美元月度订阅服务。

但结果非但未促进用户购买或订阅,反而FSD成为消费者不选购特斯拉的主因之一。

根据Slingshot Strategies今年8月发布的《2025年8月电动汽车情报报告》,对8000多名美国消费者调研显示,近35%受访者认为“FSD功能让他们更不愿购买特斯拉”,因担忧FSD技术不成熟、责任界定模糊及纯视觉方案可靠性不足。

消费者担忧不无道理。本月9日,美国国家公路交通安全管理局(NHTSA)宣布对约288万辆配备FSD的特斯拉汽车展开调查,起因是收到58起交通安全违规及事故报告,涉及闯红灯、逆行、车道识别错误等问题。

其中包括特斯拉车辆开启FSD后,在路口与他车相撞及误驶入对向车道引发事故,导致多人受伤。

03、结语

特斯拉对全球自动驾驶行业贡献显著。

基于特斯拉早年提出的BEV+Transformer、OCC占用网络及端到端模型,无疑在一定程度启发中国玩家,推动行业快速发展。

两年前,或因“担忧中国车企模仿”传闻,马斯克和特斯拉选择“沉默”,AI Day停办不再对外分享自动驾驶技术进展。

两年后的今天,理想、小鹏、吉利、华为乾崑、地平线和Momenta等玩家在技术路线上已呈“三足鼎立”之势,但马斯克应已认清现实:特斯拉不再是行业“标准答案”,各方皆按自身方向探索自动驾驶终局。

毕竟,自动驾驶行业从不缺乏“神话”,而马斯克与特斯拉当下需更务实前行。