当前位置:首页 > 科技资讯 > 正文

自动驾驶技术流派之争:从感知到决策的多元演进路径

在全球范围内,自动驾驶技术的商业化应用正步入快车道,加速推进。

截至2025年5月,Waymo在美国旧金山、洛杉矶、凤凰城和奥斯汀等城市运营的自动驾驶出租车车队规模已达1500辆,每周完成付费出行服务超过25万次;同时,百度Apollo在全球部署的无人驾驶汽车数量突破1000辆,累计提供出行服务超1100万次,安全行驶里程跨越1.7亿公里大关。

尽管大规模落地看似标志着技术成熟,实则不然,自动驾驶领域仍存在诸多尚未达成共识的流派分歧。

自动驾驶技术流派之争:从感知到决策的多元演进路径 自动驾驶 传感器融合 端到端模型 VLA 第1张

例如,在传感器方案上,纯视觉派与多传感器融合派该如何选择?系统架构方面,是坚持模块化设计,还是拥抱新兴的端到端架构?更进一步,关于世界理解方式,VLA和VLM哪个更具优势?

这些悬而未决的争议,正引导自动驾驶驶向一个尚未完全确定的未来。理解这些不同的技术路线,正是把握自动驾驶的起源、发展方向以及技术自我进化机制的关键。

眼睛之争

纯视觉vs多传感器融合

一切始于“感知”。汽车如何观察世界,构成了自动驾驶的基石。在这个核心问题上,两大阵营长期对峙,至今未休。

故事可追溯至2004年美国莫哈韦沙漠的一场挑战赛。

当时,美国国防高级研究计划局设立200万美元奖金,吸引数十支顶尖高校和科研机构参与,旨在解答“车辆如何感知周围环境?”这一难题。

卡内基梅隆大学和斯坦福大学等团队采用的激光雷达方案最终胜出。这项能生成精确3D点云图的技术,奠定了早期自动驾驶发展路线,并被谷歌旗下的Waymo继承和发扬。

然而,这一派有个显著弱点:成本高昂。一套激光雷达系统造价曾达7.5万美元,超过车辆本身,注定走小规模精英路线,难以实现大规模商业化。

自动驾驶技术流派之争:从感知到决策的多元演进路径 自动驾驶 传感器融合 端到端模型 VLA 第2张

十年后,以特斯拉为代表的视觉派开辟了另一条道路。

他们主张化繁为简:“人类仅靠双眼和大脑就能驾驶,机器为何不可?”

2014年,特斯拉推出Autopilot系统,采用Mobileye的视觉方案,选择了以摄像头为主的感知路径。2016年,埃隆·马斯克公开宣称“激光雷达是徒劳的”,正式确立了纯视觉技术路线。

团队通过8个环绕摄像头模拟人类视野,依靠深度学习算法从二维图像中重建三维环境。纯视觉方案成本极低,易于大规模商业化。通过销售更多车辆,收集海量真实世界数据,形成“数据飞轮”,反哺算法迭代,实现越用越强。

自动驾驶技术流派之争:从感知到决策的多元演进路径 自动驾驶 传感器融合 端到端模型 VLA 第3张

但摄像头作为“被动”传感器,严重依赖环境光线。在逆光、眩光、黑夜、大雨或大雾等条件下,性能会显著下降,远不及激光雷达可靠。

以激光雷达为主的多传感器融合方案认为,机器的智能在可见未来无法完全媲美人类基于经验的常识和直觉,恶劣天气下必须通过激光雷达等硬件冗余来弥补软件不足。

可以说,纯视觉将所有压力集中于算法,赌的是智能化未来;多传感器融合更注重工程落地,选择的是经过验证的现实方案。

目前,主流车企(如Waymo、小鹏、蔚来等)都站在多传感器融合阵营。他们认为安全是自动驾驶不可逾越的红线,而冗余是保障安全的唯一途径。

值得注意的是,两条路线并非完全泾渭分明,而是在相互学习和融合:纯视觉方案逐步引入更多传感器;多传感器融合方案中,视觉算法的地位也日益提升,成为理解场景语义的关键。

触觉之争

激光雷达vs 4D毫米波雷达

即使在多传感器融合派内部,也隐藏着一个选择难题:

毫米波雷达成本仅数百元,激光雷达早期需数万美元,为何还要花费巨资安装激光雷达?

激光雷达(LiDAR)通过发射激光束并测量其返回时间,可以构建周围环境极其精细的3D点云图像,解决了当时其他传感器无法应对的致命“Corner Case”(极端案例)。

它的角分辨率极高,能够清晰分辨行人姿态、车辆轮廓,甚至路面微小障碍物。在L4/L5级别商业自动驾驶领域,没有其他传感器能同时满足“高精度”和“静态物体检测”要求,为实现基本功能和安全性冗余,激光雷达的成本是车企必须支付的门票。

自动驾驶技术流派之争:从感知到决策的多元演进路径 自动驾驶 传感器融合 端到端模型 VLA 第4张

既然激光雷达如此强大,为何还需研发其他传感器?

激光雷达性能卓越,但也有其局限。激光属于红外光,波长较短。雨滴、雾滴、雪花、烟尘等颗粒大小与激光波长接近,会导致激光发生散射和吸收,产生大量“噪声”点云。

而4D毫米波雷达能全天候工作,在恶劣天气下利用其强大穿透能力,率先发现前方障碍物并提供距离和速度数据。不过,毫米波雷达回波点稀疏,只能形成少量点云,无法像激光雷达那样勾勒物体轮廓和形状,还可能因电子干扰产生“幽灵识别”。低分辨率让它难以成为主传感器,只能作为辅助。

因此,激光雷达和毫米波雷达各有优劣。二者不是替代关系,而是“常规场景靠毫米波控制成本,复杂场景靠激光雷达保障安全”的互补逻辑,不同车型配置各异。

自动驾驶技术流派之争:从感知到决策的多元演进路径 自动驾驶 传感器融合 端到端模型 VLA 第5张

L4 Robotaxi和豪华车通常采用“激光雷达为主,毫米波雷达为辅”策略,不计成本堆砌传感器,追求极致安全与性能上限;L2+、L3量产经济车型主要依赖“摄像头+毫米波雷达”,在车顶关键位置使用1~2颗激光雷达,形成高性价比方案。

车企围绕传感器的选择争议,本质是一场关于“如何以最低成本实现最高安全”的技术探索与商业博弈。未来,各种传感器将进一步融合,形成多样化搭配方案。

大脑之争

端到端vs 模块化

如果说传感器是眼睛,那么算法就是大脑。

很长一段时间,自动驾驶系统采用模块化设计,整个驾驶任务被拆解为感知、预测、规划、控制等独立子任务。每个模块各司其职,拥有独立算法和优化目标,像一条分工明确的流水线。

模块化的优点是可解释性强、开发并行、易于调试。但局部最优不等于全局最优,分而治之模式存在致命缺陷。每个模块在处理和传递信息时,都会进行一定程度的简化和抽象,导致原始丰富信息在层层传递中丢失,整体表现难以达到最优。

2022至2023年,以特斯拉FSD V12为代表的“端到端”模型横空出世,颠覆了传统范式。这种方案的灵感源于人类学习方式:新手司机不是先学光学原理再研究交通规则,而是通过观察教练操作直接学习驾驶。

自动驾驶技术流派之争:从感知到决策的多元演进路径 自动驾驶 传感器融合 端到端模型 VLA 第6张

端到端模型不再进行人为模块划分,而是通过学习海量人类驾驶数据,构建庞大神经网络,直接将传感器输入的原始数据映射到方向盘转角、油门刹车等终端驾驶控制指令。

与模块化算法不同,端到端模型全过程无信息损失、性能上限高,开发流程进一步简化,但也存在难以溯源问题的黑箱难题。一旦发生事故,系统难以判断哪个步骤出错、后续如何优化。

端到端的出现让自动驾驶从规则驱动迈向数据驱动。然而,其“黑箱”特质让许多更重视安全的车企望而却步,海量训练数据也仅拥有大规模车队的公司才能支撑。

因此,行业内出现了折中的“显式端到端”方案,即在端到端模型中保留可行驶区域、目标轨迹等中间输出,试图在性能与可解释性之间找到平衡。

“灵魂”之争

VLM vs VLA

随着AI发展,新战场在大模型内部开辟。这关乎自动驾驶的灵魂,它应该是辅助驾驶的思考者(VLM),还是执行者(VLA)?

VLM视觉语言模型信奉协同,更追求过程可控,也被称为增强派。该路线认为AI大模型虽然强大,但幻觉在安全领域致命,应该让它做最擅长的事(理解、解释、推理),而把最终决策权交给经过数十年验证、可预测、可调试的传统自动驾驶模块。

自动驾驶技术流派之争:从感知到决策的多元演进路径 自动驾驶 传感器融合 端到端模型 VLA 第7张

VLA视觉语言动作模型信奉涌现,追求结果最优,被称为端到端的终极形态。该流派主张只要模型足够大、数据足够多,AI就能自己从零开始学会驾驶的一切细节和规则,最终其驾驶能力会超越人类和基于规则的系统。

围绕VLM与VLA的争议就像模块化和端到端方案辩论的延续。

VLA存在难以溯源的黑箱困境。如果一辆VLA车发生急刹车,工程师几乎无法追溯原因:是因为它将阴影误判为坑洞?还是学到了某个人类司机的不良习惯?无法调试、无法验证,这与汽车行业严格的功能安全标准根本冲突。

而VLM系统整个过程可分解、可分析、可优化。如果遇到问题,工程师可以清晰看到:传统感知模块检测到物体、VLM将其识别为“被风吹走的塑料袋”、规划模块因此决定“无需紧急刹车,轻微减速即可”。事故后,责任清晰界定。

除了可解释性上的两极分化,训练成本也是车企犹疑不决的原因之一。

VLA需要海量“视频-控制信号”配对数据,即输入一段8摄像头视频,输出同步的方向盘、油门、刹车信号。这种数据极其稀缺且制作成本高昂。

VLM本质是多模态大模型,可以利用互联网规模的丰富“图像-文本”配对数据进行预训练,再用驾驶相关数据微调。数据来源更广,成本相对更低。

自动驾驶技术流派之争:从感知到决策的多元演进路径 自动驾驶 传感器融合 端到端模型 VLA 第8张

目前来看,VLM技术相对成熟,更易落地,大部分主流车企和自动驾驶公司(如Waymo、Cruise、华为、小鹏等)都走在VLM路线上。而VLA路线的探索者则以特斯拉、吉利和理想为代表。据悉,吉利千里科技的千里浩瀚H9方案采用了VLA大模型,具备更强推理与决策能力,支持L3级智能驾驶解决方案。

回顾自动驾驶的流派之争,我们发现这些技术争论从未以一方完全胜出告终,而是在碰撞中相互融合,走向更高层次统一。激光雷达与视觉正在融合为多模态感知系统;模块化架构开始吸收端到端优势;大模型正在为所有系统注入认知智能。

那些曾让行业困惑的谜题,看似没有标准答案,但最终都将成为技术迭代的注脚,推动自动驾驶继续向前发展。