登录

Waymo CEO回应L 2升维L 4：为什么说端到端还不够？

速读：端到端是重要的方向，但不是终点。马斯克当年在发布会上演示了端到端方案在城市道路上的表现，让整个行业看到了可能性：不需要高精地图，不需要人工规则，靠数据驱动就能覆盖各种场景。问题在于：纯端到端的输出是连续轨迹，难以拆解成可度量的中间状态。特斯拉的FSDv12证明了端到端的可行性：在很多场景下，端到端的表现已经能够接近甚至超过人类驾驶员。 2025年，国内多家主打纯视觉方案的车企开始重新评估激光雷达的价值。

2026年05月17日 21:40

新机器

Waymo CEO回应L2升维L4：为什么说端到端还不够？

自动驾驶行业最近有个热门话题：L2辅助驾驶的玩家，能不能顺着技术升级的路径，一路杀进L4无人驾驶的领地？

Waymo联席CEO德米特里·多尔戈夫最近给出了他的答案—— 有可能，但只靠端到端还不够。

这个判断来自自动驾驶行业内部，份量不轻。Waymo是目前全球落地最广、数据最丰富的L4玩家，多尔戈夫也是行业元老，2017年加入Waymo之前在Google多年，对自动驾驶的技术演进理解很深。他的观点，值得认真拆解。

从端到端说起

过去两年，端到端成了自动驾驶最热的概念。

简单说，就是把传感器（摄像头、激光雷达）收集的原始数据，直接喂给一个大型神经网络，输出车辆的控制轨迹。中间不需要人工设计规则，不需要模块之间的接口定义，模型自己学会开车。输入像素，输出轨迹，中间全靠学习。

特斯拉是这个路线的最大推手。FSD v12发布后，端到端的名声彻底打响。马斯克当年在发布会上演示了端到端方案在城市道路上的表现，让整个行业看到了可能性：不需要高精地图，不需要人工规则，靠数据驱动就能覆盖各种场景。

国内蔚来、小鹏、华为也跟着喊"端到端量产"，比亚迪、吉利等传统车企也在快速跟进。2025年，几乎所有中国头部车企都宣布了端到端方案的上车计划。小鹏的XNGP、华为的ADS 3.0、蔚来的NAD 2.0，都在强调端到端架构。

多尔戈夫没有否定这个方向——Waymo自己也用端到端。但他指出了一个关键问题：纯端到端是个黑盒。

"传感器输入图像，系统利用图像像素，直接输出车辆轨迹。这就给仿真训练带来了困难。"

这是什么意思？

做自动驾驶，仿真测试是核心技术环节。你需要能在虚拟环境中生成各种场景——行人横穿、紧急并线、恶劣天气、传感器故障——让算法反复练习，在虚拟世界里积累足够多的里程。真实道路测试成本太高、效率太低、危险太大，不可能什么都靠路测。

问题在于：纯端到端的输出是连续轨迹，难以拆解成可度量的中间状态。你不知道在这个场景里，车为什么选择了向左而不是向右；你也不知道下次遇到类似场景，模型会不会做出不同的选择。

结果是，仿真器不知道"怎么制造有效的训练样本"——它不知道当前模型的弱点在哪里，不知道应该生成什么样的场景来针对性地训练。只能靠海量真实路测来弥补，路测数据喂进去，模型自己学。

这不是Waymo一家遇到的难题。所有做纯端到端的玩家都面临这个困境：系统跑起来了，指标在涨，但不知道怎么系统性改进。每个新的bad case（问题案例）都要靠路测发现，然后靠更多数据压下去，迭代效率低，边界情况永远清不干净。

Waymo的解法：端到端+结构化概念

Waymo的答案是混合路线—— 在端到端的基础上，引入真实世界的结构化概念。

具体来说，Waymo在云端构建了一个多模态世界行为语言模型。这不是单纯的视觉模型，而是把道路结构、交通标志、行为模式全部符号化，理解"在这个路口应该怎么开"、"前方学校区域应该减速到多少"、"遇到救护车应该靠边停车"这类知识。

模型学会了这些结构化概念之后，蒸馏压缩部署到车端。车端模型不需要从零学习"这是什么路口"，而是借助结构化概念快速理解场景，做出合理的驾驶决策。

这种做法在机器学习领域叫"知识蒸馏"——大模型（teacher）学习复杂的专业知识，小模型（student）继承关键能力，部署到实际场景。OpenAI的GPT-4o和GPT-4o-mini的关系也是类似的：大模型教小模型，小模型更轻更快。

多尔戈夫说，Waymo的第六代套件仍然保留了激光雷达、毫米波雷达和摄像头等多传感器方案。成本已经降到与普通ADAS系统相当的水平——第六代比第五代成本降低了约50%，但多尔戈夫仍然坚持冗余。

他提到一个具体例子：激光雷达能检测到行人脚步的微弱信号，这是纯视觉方案难以替代的能力。

人体姿态估计在计算机视觉领域已经做得很好，但激光雷达的点云在检测微弱信号方面仍有优势。行人刚开始迈步时，脚尖离地的高度只有几厘米，视觉系统可能会漏检，但激光雷达能捕捉到地面上的微小变化。这种能力在夜间和雨雾天气下尤为重要。

2025年，国内多家主打纯视觉方案的车企开始重新评估激光雷达的价值。不完全是成本问题——而是面对L4的安全性要求，纯视觉在极端场景下的表现始终不如多传感器融合方案。

L2到L4：不是升维，是质变

最值得关注的观点，是多尔戈夫对L2→L4路径的判断。

他把自动驾驶技术栈拆成三个部分：

• Driver（司机模型）：负责感知和决策，解决"怎么开"的问题

• Simulator（仿真器）：负责场景生成，解决"怎么练"的问题

• Critic（价值判断器）：负责评估决策质量，解决"开得好不好"的问题

如果只做L2辅助驾驶，只用Driver模型就够了——可以解决90%的场景。端到端方案在结构化道路上的表现已经很好，高速公路、自动泊车这些场景已经比较成熟。用户在高速公路上开启辅助驾驶，系统能够稳定地保持车道、控制车距、应对加塞情况。

但跨越L4鸿沟，需要三个模块协同。Simulator提供虚拟训练数据，Critic评估决策质量，两者配合Driver形成持续改进的闭环。没有Simulator，模型只能在真实道路上学习长尾场景，成本极高、效率极低。没有Critic，模型不知道自己开得对不对，不知道往哪个方向优化。

多尔戈夫举了一个具体的例子：假设在一个复杂的无信号灯路口，Driver模型做出"缓慢通行"的决策。Simulator可以生成100种这个场景的变体——行人更多、视野更差、对方来车速度更快——让模型反复练习。Critic则评估每次决策的安全性，判断"缓慢通行"是不是最优选择，如果不是，应该改成什么。

L2跟L4解决的技术问题有本质不同，这是质变，不是一回事。

这个判断对国内自动驾驶赛道有直接参考价值。国内L2+的量产推进很快，端到端方案也在快速落地。但做L4的思路，如果只盯着端到端这一个点，可能会低估跨越L4所需的系统性投入。很多公司低估了Simulator和Critic的重要性——这两个模块没有现成方案，需要大量自研。

数据说话：Waymo商业化到什么程度了

光有技术路线不够，外界最关心的还是商业化。

多尔戈夫披露了最新数据：

• 累计订单突破2000万单

• 每周50万单

• 车队规模3000辆

• 已落地美国11个城市

这个数字放在全球L4赛道看，体量明显领先。Cruise在2023年因事故停摆后，Waymo几乎是Robotaxi赛道唯一的大规模玩家。亚马逊的Zoox还在小规模测试阶段，苹果的Titan项目已经转向。

每周50万单是什么概念？按每单平均10美元计算，每周营收约500万美元，一年约2.5亿美元。这个数字对一家L4公司来说已经相当可观，但距离盈利可能还有距离——毕竟3000辆车队的运营成本不低。

2026年的重点是国际化：伦敦和东京已经在计划中。如果伦敦落地成功，将是Waymo首次进入美国以外的城市，也意味着Robotaxi正式进入"全球化元年"。

伦敦对自动驾驶的意义不只是市场本身。伦敦是欧洲最大的出行市场之一，也是全球右舵驾驶的主要城市之一。在伦敦落地意味着Waymo的算法能够处理右侧通行、圆形路口（roundabout）等非美国场景，对于后续拓展欧洲市场意义重大。

东京的意义在于亚洲市场和文化背景的不同。日本的交通环境有自己的特点——自行车骑行者在机动车道行驶、行人过马路的方式、与路人的交互习惯都与欧美不同。能在东京落地，说明Waymo的方案具备跨文化适应能力。

多尔戈夫还透露了一个有意思的信息： Waymo的系统将来也可能部署到私家车上。

这意味着Waymo不满足于只做Robotaxi运营商，而是想成为私家车的自动驾驶方案供应商。如果成真，对整个行业的影响会非常大——Waymo从一个出行服务平台，变成了一个汽车行业的Tier 1供应商。

这对特斯拉也是一个竞争压力：Waymo的L4技术在私家车场景落地，将直接挑战特斯拉FSD的市场地位。

中国的Robotaxi玩家在什么位置

说到Robotaxi，不能不提国内的几家重要玩家。

文远知行是最近最受关注的一家。2026年Q1财报数据显示：总营收1.14亿元，同比增长57.6%；Robotaxi业务全球车队约2800台，其中Robotaxi约1300台；国内用户注册量达去年2倍，单车日均订单超17单，高峰期达28单；海外阿布扎比已实现单位经济盈亏平衡。

17单/天已经接近网约车的水平。目前国内网约车日均订单量大约在20-30单左右，如果Robotaxi能够稳定在17单，说明在某些区域的使用体验已经开始接近网约车。文远知行的阿布扎比已经实现单位经济盈亏平衡，意味着这个区域已经可以靠运营收入覆盖运营成本，不需要靠补贴维持。

文远知行还宣布与联想合作，计划五年内部署20万台Robotaxi。20万台是什么概念？目前全国网约车数量大约在300万台左右，20万台Robotaxi将占网约车总量的约7%，体量不小。

L2++业务方面，WRD 3.0端到端ADAS方案已获得广汽、奇瑞等近30个车型定点，首款量产车埃安N60已经上市。文远知行在做L4的同时，也在向量产车企提供ADAS方案，这是L4公司常见的商业化路径——用L4技术降维做L2+产品，收取技术授权费。

小马智行是另一家重要玩家，2025年在广州、北京等地的运营规模也在持续扩大。小马智行的特点是技术积累比较深，在robotaxi领域起步较早，但商业化推进速度不如文远知行快。

萝卜快跑（百度）是另一个重要玩家，2025年在武汉的运营规模快速扩大，但武汉的运营条件相对较好——道路宽敞、交通复杂度低于北上广深。萝卜快跑的策略是先在简单场景跑通，再逐步扩展到复杂场景。

从技术路线看，国内玩家大多采用"轻地图+端到端"的方案，与Waymo的混合路线有所不同。轻地图的好处是落地快、成本低，坏处是对复杂场景的处理能力受限。中国道路的复杂程度比美国更高——城中村、机非混行、外卖骑手、临时施工场景——这些都对轻地图方案提出了更高要求。

为什么端到端还没有过时

说了这么多端到端的局限，那端到端是不是不值得做了？

不是。端到端仍然是自动驾驶最重要的技术突破之一。

传统自动驾驶架构的问题在于模块之间的接口。人眼看到的信息→感知模块识别物体→预测模块判断轨迹→规划模块决定路线→控制模块执行动作。每个模块之间都要做信息转换，转换过程会有损失，而且模块之间的边界固定死了，改进一个模块不等于整体提升。

端到端打破了这种限制。模型可以从端到端整体优化，输入原始传感器数据，输出控制信号，中间没有人工设计的接口。数据驱动的方式让系统能够自动学习人类驾驶员的决策模式，而不是依赖工程师手工编码规则。

特斯拉的FSD v12证明了端到端的可行性：在很多场景下，端到端的表现已经能够接近甚至超过人类驾驶员。但"很多场景"不等于"所有场景"。长尾问题（corner case）始终存在，而且越往后越难解决。

这正是多尔戈夫说的"端到端还不够"的意思：端到端是必要条件，但不是充分条件。做好端到端是基础，但L4还需要更多的工程能力。

对国内行业的启示

多尔戈夫的判断对国内自动驾驶行业有几个值得思考的地方。

第一，不要低估L4的系统复杂度。 L2的量产能跑通，不等于L4能自然延伸过来。L2的核心能力是"在大部分场景下正常开车"，L4的核心能力是"在所有场景下保证安全"。这两个目标的工程复杂度不在一个量级。

第二，仿真器和价值判断器需要提前布局。这两个模块不是等端到端成熟了再做，而是需要从现在就投入。很多国内公司在这块的积累还不够。

第三，多传感器融合仍然有价值。纯视觉方案成本低、落地快，但在安全性和极端场景处理上仍有短板。L4对安全性的要求远高于L2，传感器冗余不是可选项。

第四，Robotaxi的商业化正在进入关键阶段。文远知行的数据说明，在某些区域Robotaxi已经具备实用价值。下一步是扩大运营规模、降低成本、提高安全性。如果这些指标能够持续改善，Robotaxi的商业化前景是积极的。

技术路线没有银弹。端到端是重要的方向，但不是终点。L4需要的，是比"让车自己开"多得多的东西。

主题：端到端|L4|输出|多尔戈夫