Waymo CEO回应L 2升维L 4:为什么说端到端还不够?
新机器
Waymo CEO回应L2升维L4:为什么说端到端还不够?
自动驾驶行业最近有个热门话题:L2辅助驾驶的玩家,能不能顺着技术升级的路径,一路杀进L4无人驾驶的领地?
Waymo联席CEO德米特里·多尔戈夫最近给出了他的答案—— 有可能,但只靠端到端还不够。
这个判断来自自动驾驶行业内部,份量不轻。Waymo是目前全球落地最广、数据最丰富的L4玩家,多尔戈夫也是行业元老,2017年加入Waymo之前在Google多年,对自动驾驶的技术演进理解很深。他的观点,值得认真拆解。
从端到端说起
过去两年,端到端成了自动驾驶最热的概念。
简单说,就是把传感器(摄像头、激光雷达)收集的原始数据,直接喂给一个大型神经网络,输出车辆的控制轨迹。中间不需要人工设计规则,不需要模块之间的接口定义,模型自己学会开车。输入像素,输出轨迹,中间全靠学习。
特斯拉是这个路线的最大推手。FSD v12发布后,端到端的名声彻底打响。马斯克当年在发布会上演示了端到端方案在城市道路上的表现,让整个行业看到了可能性:不需要高精地图,不需要人工规则,靠数据驱动就能覆盖各种场景。
国内蔚来、小鹏、华为也跟着喊"端到端量产", 比亚迪 、吉利等传统车企也在快速跟进。2025年,几乎所有中国头部车企都宣布了端到端方案的上车计划。小鹏的XNGP、华为的ADS 3.0、蔚来的NAD 2.0,都在强调端到端架构。
多尔戈夫没有否定这个方向——Waymo自己也用端到端。但他指出了一个关键问题: 纯端到端是个黑盒。
"传感器输入图像,系统利用图像像素,直接输出车辆轨迹。这就给仿真训练带来了困难。"
这是什么意思?
做自动驾驶,仿真测试是核心技术环节。你需要能在虚拟环境中生成各种场景——行人横穿、紧急并线、恶劣天气、传感器故障——让算法反复练习,在虚拟世界里积累足够多的里程。真实道路测试成本太高、效率太低、危险太大,不可能什么都靠路测。
问题在于: 纯端到端的输出是连续轨迹,难以拆解成可度量的中间状态。 你不知道在这个场景里,车为什么选择了向左而不是向右;你也不知道下次遇到类似场景,模型会不会做出不同的选择。
结果是,仿真器不知道"怎么制造有效的训练样本"——它不知道当前模型的弱点在哪里,不知道应该生成什么样的场景来针对性地训练。只能靠海量真实路测来弥补,路测数据喂进去,模型自己学。
这不是Waymo一家遇到的难题。所有做纯端到端的玩家都面临这个困境:系统跑起来了,指标在涨,但不知道怎么系统性改进。每个新的bad case(问题案例)都要靠路测发现,然后靠更多数据压下去,迭代效率低,边界情况永远清不干净。
Waymo的解法:端到端+结构化概念
Waymo的答案是混合路线—— 在端到端的基础上,引入真实世界的结构化概念。
具体来说,Waymo在云端构建了一个多模态世界行为语言模型。这不是单纯的视觉模型,而是把道路结构、交通标志、行为模式全部符号化,理解"在这个路口应该怎么开"、"前方学校区域应该减速到多少"、"遇到救护车应该靠边停车"这类知识。
模型学会了这些结构化概念之后,蒸馏压缩部署到车端。车端模型不需要从零学习"这是什么路口",而是借助结构化概念快速理解场景,做出合理的驾驶决策。
这种做法在机器学习领域叫"知识蒸馏"——大模型(teacher)学习复杂的专业知识,小模型(student)继承关键能力,部署到实际场景。OpenAI的GPT-4o和GPT-4o-mini的关系也是类似的:大模型教小模型,小模型更轻更快。
多尔戈夫说,Waymo的第六代套件仍然保留了激光雷达、毫米波雷达和摄像头等多传感器方案。成本已经降到与普通ADAS系统相当的水平——第六代比第五代成本降低了约50%,但多尔戈夫仍然坚持冗余。
他提到一个具体例子: 激光雷达能检测到行人脚步的微弱信号,这是纯视觉方案难以替代的能力。
人体姿态估计在计算机视觉领域已经做得很好,但激光雷达的点云在检测微弱信号方面仍有优势。行人刚开始迈步时,脚尖离地的高度只有几厘米,视觉系统可能会漏检,但激光雷达能捕捉到地面上的微小变化。这种能力在夜间和雨雾天气下尤为重要。
2025年,国内多家主打纯视觉方案的车企开始重新评估激光雷达的价值。不完全是成本问题——而是面对L4的安全性要求,纯视觉在极端场景下的表现始终不如多传感器融合方案。
L2到L4:不是升维,是质变
最值得关注的观点,是多尔戈夫对L2→L4路径的判断。
他把自动驾驶技术栈拆成三个部分:
• Driver(司机模型) :负责感知和决策,解决"怎么开"的问题
• Simulator(仿真器) :负责场景生成,解决"怎么练"的问题
• Critic(价值判断器) :负责评估决策质量,解决"开得好不好"的问题
如果只做L2辅助驾驶,只用Driver模型就够了——可以解决90%的场景。端到端方案在结构化道路上的表现已经很好,高速公路、自动泊车这些场景已经比较成熟。用户在高速公路上开启辅助驾驶,系统能够稳定地保持车道、控制车距、应对加塞情况。
但跨越L4鸿沟,需要三个模块协同。Simulator提供虚拟训练数据,Critic评估决策质量,两者配合Driver形成持续改进的闭环。没有Simulator,模型只能在真实道路上学习长尾场景,成本极高、效率极低。没有Critic,模型不知道自己开得对不对,不知道往哪个方向优化。
多尔戈夫举了一个具体的例子:假设在一个复杂的无信号灯路口,Driver模型做出"缓慢通行"的决策。Simulator可以生成100种这个场景的变体——行人更多、视野更差、对方来车速度更快——让模型反复练习。Critic则评估每次决策的安全性,判断"缓慢通行"是不是最优选择,如果不是,应该改成什么。
L2跟L4解决的技术问题有本质不同,这是质变,不是一回事。
这个判断对国内自动驾驶赛道有直接参考价值。国内L2+的量产推进很快,端到端方案也在快速落地。但做L4的思路,如果只盯着端到端这一个点,可能会低估跨越L4所需的系统性投入。很多公司低估了Simulator和Critic的重要性——这两个模块没有现成方案,需要大量自研。
数据说话:Waymo商业化到什么程度了
光有技术路线不够,外界最关心的还是商业化。
多尔戈夫披露了最新数据:
• 累计订单突破2000万单
• 每周50万单
• 车队规模3000辆
• 已落地美国11个城市
这个数字放在全球L4赛道看,体量明显领先。Cruise在2023年因事故停摆后,Waymo几乎是Robotaxi赛道唯一的大规模玩家。亚马逊的Zoox还在小规模测试阶段,苹果的Titan项目已经转向。
每周50万单是什么概念?按每单平均10美元计算,每周营收约500万美元,一年约2.5亿美元。这个数字对一家L4公司来说已经相当可观,但距离盈利可能还有距离——毕竟3000辆车队的运营成本不低。
2026年的重点是 国际化 :伦敦和东京已经在计划中。如果伦敦落地成功,将是Waymo首次进入美国以外的城市,也意味着Robotaxi正式进入"全球化元年"。
伦敦对自动驾驶的意义不只是市场本身。伦敦是欧洲最大的出行市场之一,也是全球右舵驾驶的主要城市之一。在伦敦落地意味着Waymo的算法能够处理右侧通行、圆形路口(roundabout)等非美国场景,对于后续拓展欧洲市场意义重大。
东京的意义在于亚洲市场和文化背景的不同。日本的交通环境有自己的特点——自行车骑行者在机动车道行驶、行人过马路的方式、与路人的交互习惯都与欧美不同。能在东京落地,说明Waymo的方案具备跨文化适应能力。
多尔戈夫还透露了一个有意思的信息: Waymo的系统将来也可能部署到私家车上。
这意味着Waymo不满足于只做Robotaxi运营商,而是想成为私家车的自动驾驶方案供应商。如果成真,对整个行业的影响会非常大——Waymo从一个出行服务平台,变成了一个汽车行业的Tier 1供应商。
这对特斯拉也是一个竞争压力:Waymo的L4技术在私家车场景落地,将直接挑战特斯拉FSD的市场地位。
中国的Robotaxi玩家在什么位置
说到Robotaxi,不能不提国内的几家重要玩家。
文远知行 是最近最受关注的一家。2026年Q1财报数据显示:总营收1.14亿元,同比增长57.6%;Robotaxi业务全球车队约2800台,其中Robotaxi约1300台;国内用户注册量达去年2倍,单车日均订单超17单,高峰期达28单;海外阿布扎比已实现单位经济盈亏平衡。
17单/天已经接近网约车的水平。目前国内网约车日均订单量大约在20-30单左右,如果Robotaxi能够稳定在17单,说明在某些区域的使用体验已经开始接近网约车。文远知行的阿布扎比已经实现单位经济盈亏平衡,意味着这个区域已经可以靠运营收入覆盖运营成本,不需要靠补贴维持。
文远知行还宣布与联想合作,计划五年内部署20万台Robotaxi。20万台是什么概念?目前全国网约车数量大约在300万台左右,20万台Robotaxi将占网约车总量的约7%,体量不小。
L2++业务方面,WRD 3.0端到端ADAS方案已获得广汽、奇瑞等近30个车型定点,首款量产车埃安N60已经上市。文远知行在做L4的同时,也在向量产车企提供ADAS方案,这是L4公司常见的商业化路径——用L4技术降维做L2+产品,收取技术授权费。
小马智行 是另一家重要玩家,2025年在广州、北京等地的运营规模也在持续扩大。小马智行的特点是技术积累比较深,在robotaxi领域起步较早,但商业化推进速度不如文远知行快。
萝卜快跑(百度)是另一个重要玩家,2025年在武汉的运营规模快速扩大,但武汉的运营条件相对较好——道路宽敞、交通复杂度低于北上广深。萝卜快跑的策略是先在简单场景跑通,再逐步扩展到复杂场景。
从技术路线看,国内玩家大多采用"轻地图+端到端"的方案,与Waymo的混合路线有所不同。轻地图的好处是落地快、成本低,坏处是对复杂场景的处理能力受限。中国道路的复杂程度比美国更高——城中村、机非混行、外卖骑手、临时施工场景——这些都对轻地图方案提出了更高要求。
为什么端到端还没有过时
说了这么多端到端的局限,那端到端是不是不值得做了?
不是。端到端仍然是自动驾驶最重要的技术突破之一。
传统自动驾驶架构的问题在于模块之间的接口。人眼看到的信息→感知模块识别物体→预测模块判断轨迹→规划模块决定路线→控制模块执行动作。每个模块之间都要做信息转换,转换过程会有损失,而且模块之间的边界固定死了,改进一个模块不等于整体提升。
端到端打破了这种限制。模型可以从端到端整体优化,输入原始传感器数据,输出控制信号,中间没有人工设计的接口。数据驱动的方式让系统能够自动学习人类驾驶员的决策模式,而不是依赖工程师手工编码规则。
特斯拉的FSD v12证明了端到端的可行性:在很多场景下,端到端的表现已经能够接近甚至超过人类驾驶员。但"很多场景"不等于"所有场景"。长尾问题(corner case)始终存在,而且越往后越难解决。
这正是多尔戈夫说的"端到端还不够"的意思:端到端是必要条件,但不是充分条件。做好端到端是基础,但L4还需要更多的工程能力。
对国内行业的启示
多尔戈夫的判断对国内自动驾驶行业有几个值得思考的地方。
第一,不要低估L4的系统复杂度。 L2的量产能跑通,不等于L4能自然延伸过来。L2的核心能力是"在大部分场景下正常开车",L4的核心能力是"在所有场景下保证安全"。这两个目标的工程复杂度不在一个量级。
第二,仿真器和价值判断器需要提前布局。 这两个模块不是等端到端成熟了再做,而是需要从现在就投入。很多国内公司在这块的积累还不够。
第三,多传感器融合仍然有价值。 纯视觉方案成本低、落地快,但在安全性和极端场景处理上仍有短板。L4对安全性的要求远高于L2,传感器冗余不是可选项。
第四,Robotaxi的商业化正在进入关键阶段。 文远知行的数据说明,在某些区域Robotaxi已经具备实用价值。下一步是扩大运营规模、降低成本、提高安全性。如果这些指标能够持续改善,Robotaxi的商业化前景是积极的。
技术路线没有银弹。端到端是重要的方向,但不是终点。L4需要的,是比"让车自己开"多得多的东西。