21专访｜小米陈龙：陪小米智驾长到十八岁

速读：长大后，他曾在英国剑桥大学孵化的自动驾驶公司Wayve任职，是将VLA模型引入辅助驾驶领域的先行者，致力于令大模型的驾驶决策过程更加透明。通俗来说，大模型虽然靠“死记硬背”海量的驾驶数据提升了自己的驾驶水平，但现实世界总会出现更多元、更复杂的驾驶场景。端到端拆掉了传统辅助驾驶的“感知”“规划”“决策”模块，通过直接灌入大量驾驶场景数据，直接让模型学习并输出驾驶行为。 3月份，小米刚发布了新一代SU7，并宣布辅助驾驶升级到XLA认知大模型架构。 ·另一种则是“世界动作模型（WorldActionModel）”，通过喂海量的驾驶数据，模型能想象出未来的行车画面，并通过预判作出驾驶决策。

2026年05月09日 21:4

人类不是一生下来就学习开车的，大模型也一样。

21世纪经济报道记者何煦阳

4月1日，《21汽车·一见Auto》与小米汽车智能驾驶基座大模型负责人陈龙进行了一次面对面访谈。

“小时候，我们学说话和认字。随着慢慢成长，我们会经常摸、拿、抓、取一些东西。等到我们具备了强大的语言能力和对空间的理解和推理能力，差不多十八岁以后，我们再去学习。这样才能将我们习得的一切融入驾驶之中，不仅开得更快，还开得更好。XLA 大模型也一样。 ”在访谈时，陈龙对我们说。

3月份，小米刚发布了新一代SU7，并宣布辅助驾驶升级到 XLA 认知大模型架构。小米集团董事长雷军在新一代SU7发布会上称，之所以命名为 “XLA” 而非业内俗称的 “VLA（Vision-Language-Action Model，视觉 - 语言 - 动作）”大模型，是因为模型具备“多模态的认知输入”：小米还融入了声音、机器人数据等模态。

雷军介绍小米 XLA 认知大模型陈龙就是开发 XLA 认知大模型的负责人。童年时，他喜欢美剧《霹雳游侠》里的智能跑车 KITT，这台跑车有鲜明的自我意识，通过自动驾驶多次帮助主角化险为夷。长大后，他曾在英国剑桥大学孵化的自动驾驶公司 Wayve 任职，是将 VLA 模型引入辅助驾驶领域的先行者，致力于令大模型的驾驶决策过程更加透明。一年之前，他加入小米，担任辅助驾驶 VLA 技术负责人。

彼时的小米辅助驾驶架构还处于 “端到端（End-to-End，一种深度学习模型范式，直接从原始输入映射到最终输出） + VLM（视觉 - 语言模型，Vision-Language Model） ” 阶段。陈龙将这一阶段的核心，提炼为 “数据驱动” 。端到端拆掉了传统辅助驾驶的“感知”“规划”“决策”模块，通过直接灌入大量驾驶场景数据，直接让模型学习并输出驾驶行为。2024年，国内车企及供应商集体切换到端到端架构，辅助驾驶的整体水平均得到了质的提升。

但进入2025年，端到端架构的缺陷开始显现。通俗来说，大模型虽然靠 “死记硬背” 海量的驾驶数据提升了自己的驾驶水平，但现实世界总会出现更多元、更复杂的驾驶场景。大模型需要真正理解和认知人类社会和现实世界，才不会在现实世界中遇到新的场景时“傻眼”，像老司机一样思考，做到 “举一反三” 。——陈龙将新阶段的核心，提炼为 “认知驱动” 。

先让大模型长到十八岁

可是如何才能让大模型学会“认知”？

端到端时代，大模型被灌入了海量的驾驶数据，但这些数据还不够。陈龙需要打造一个更庞大的具身基座大模型，这个模型中不仅需要驾驶数据，还需要有机器人数据、多模态数据（图片、文字、视频）。

加入机器人数据，是为了让模型如同人类从孩童开始一般“与各种物体进行交互”，更理解“物体与物体之间的逻辑关系”。而加入海量的多模态数据，是要让模型如同人类从孩童开始一般识字，慢慢发展视觉和语言能力，具备对人类社会和现实世界的通识。整个过程，相当于“先让大模型长到十八岁”。

2025年11月21日，小米正式发布并开源小米具身大模型 “Xiaomi MiMo-Embodied ”。为了将小米的具身基座大模型抚养成人，陈龙团队花了八个月的时间，但趟过的弯路却远不只八次。

在这个过程中，曾在阿里巴巴达摩院、幻方量化及DeepSeek（深度求索）任职，如今担任小米集团 AI 实验室 MiMo 大模型团队负责人的罗福莉，给予了他们很多帮助。“ 罗福莉和他们团队，不仅给我们提供了一个很强的基座模型Xiaomi MiMo-VL系列，还与我们共享了一套训练框架。”陈龙告诉我们。

2025年5月30日，小米发布并开源了多模态大模型 “Xiaomi MiMo-VL”。陈龙团队采用了 Xiaomi MiMo-VL 中的 “视觉编码器”，能将高分辨率的画面编码成机器能理解的视觉 Token，并直接 “继承了其成熟的视觉-语言对齐机制和强大的推理能力” 。这意味着陈龙团队不用从零开始训练自己的基座模型，大大缩短了Xiaomi MiMo-Embodied “成年”的时间。

小米具身大模型MiMo-Embodied技术报告节选陈龙告诉我们，Xiaomi MiMo-Embodied 的 AI Infra（人工智能基础设施，常简称为 “AI基建”），很大一部分也是复用罗福莉团队的。

不过，将大模型混入如此多元的数据，对陈龙团队来讲也是第一次，所以他们搞错了很多次灌输数据的顺序。

“因为之前也没人探索过，所以我们错了很多次。一开始我们就想直接将数据混在一起训练，后来发现不太work。”之后，陈龙团队开始思考应该让模型先具有什么能力，再具有什么样的能力，才发现要先灌输通用的多模态与空间数据，再灌输机器人与辅助驾驶数据。——这很像人类先成人再开车的逻辑。

数据的配比也是关键。与驾驶场景相比，机器人面对的场景更多元也更复杂，因为存在不同的机器人本体，所以又存在不同种类的机器人数据，这都导致机器人的数据更稀少。陈龙团队在互联网上尽可能地搜索并加入了大量开源的机器人数据，花了大量的时间做实验来验证机器人、驾驶与多模态数据具体应该怎么配比。

除了配比，还要将数据相融。“我们标注了很多 CoT（Chain of Thought，思维链）数据。”陈龙告诉我们，这相当于将两个大任务分解成很多小任务，告诉大模型要先识别具体的物体，再理解物体的状态，最后明白未来该怎么做。

端到端时代，大模型具备Scaling Law（缩放定律，指大模型性能会随着参数、数据和算力的提升而提升）。但陈龙告诉我们，到了后期，模型辅助驾驶水平提升的边际效应递减得越来越明显。切换成 VLA 架构之后，模型需要加入更多的、崭新的三模态（视觉-语言-行动）辅助驾驶数据，才会开始新的一轮Scaling Law。

这意味着陈龙团队需要重新标注驾驶数据，重新思考如何构造不同的驾驶任务。比如，“你需要构造很多种问题，然后让模型描述不同的驾驶片段，生成一段文字回答。”陈龙告诉我们， “一个问题、一段画面、一个回答”，这在 VLA 时代只能算 “一种数据” 。

显然，单靠人力是无法完成如此庞大的数据构造工作的。此时，罗福莉团队又发挥了重要的作用。关于驾驶片段数据，陈龙团队可以复用罗福莉团队的AI Infra去搜集，然后设置问题让XLA回答。至于回答是否准确，陈龙团队可以利用Xiaomi MiMo-VL系列大模型来进行监督，再人工 “精筛” 一遍。

陈龙告诉我们，他们和罗福莉团队是“兄弟团队”。

教会大模型如何 “思考”

将Xiaomi MiMo-Embodied “抚养成人”并不意味着结束，进入到量产部署阶段，新的问题也随之浮现。

“模型太大了。” 陈龙告诉我们，去年年底，他们已经利用内部数据，做了一个尺寸更小的、闭源的Xiaomi MiMo-Embodied，但与量产团队一起放到车端之后，发现车上的算力实在有限。

VLA架构在去年快速被行业采用的原因，除了能够提升辅助驾驶水平以外，还因为其具备可解释性与可追溯性。端到端架构只有“输入”与“输出”两端，中间模型通过海量驾驶数据自己学习，但到底是怎么学习的，在实际的辅助驾驶中是怎么决策的，哪怕对于模型提出者本人也是一个 “黑箱” 。

但VLA架构不同。VLA 自动驾驶模型架构可以在输入视觉信息（Vision）时，一并输入语言（Language，地图指令、驾驶规则、自然语言提示、人类驾驶解说等）进行训练。实际推理时，VLA可以利用大语言模型（LLM）的语义理解和因果推理能力，将“V”与“L”结合起来做决策，思考力更强。因此最后输出驾驶动作（Action）时，也可以将模型内部的思考过程通过人类语言展现出来。

但利用人类语言，消耗的算力和时间实在太多了。如何让 XLA 认知大模型推理时更迅速且更高效，成为了陈龙思考的主题。

潜空间推理（Latent CoT）应运而生。陈龙在 XLA 认知大模型宣传视频中介绍：“简单来说，系统不再需要把思考过程翻译成语言，而是在潜空间中直接使用高维机器语言进行极速推理”，这样就大幅提升了 XLA 面对复杂驾驶场景时的推理速度。如果事后需要，陈龙称小米团队也可以将其思考过程解码，保证其“可解释与可追溯性”。

直接命令 XLA 大模型用自己的机器语言进行思考的确更高效，但 XLA 模型究竟应该怎么思考呢？如果没有人类指导，XLA 在推理时 “虽然中间多了很多步，但他不知道要用这几步来干什么。所以最终肯定还是需要人类指导的。”

陈龙说，在每一次开车时，他都“无时无刻不在留意自己是怎么开车的”。他觉得大概人类在开车时的思考方式大致分三种：

第一种，运用直觉。因为大量的驾驶经验与对世界的理解已经沉淀在人类的潜意识里，所以在开车时人类可以“脑袋放空”。“这更像端到端驾驶的方式”。

第二种，运用语言和推理能力。比如，人类需要读取标识牌、导航的信息，判断一下往哪里开。

XLA 大模型也一样。以超车为例：给 XLA 一段车辆跟在前方慢车后的画面，让 XLA 自己思考，再把自己的机器语言翻译成人类语言思维链，如果能还原出“前方慢车挡路一确认安全一打灯变道超车一回原车道”的人类语言，说明它正确理解了人类驾驶的思考逻辑。在模型训练阶段，陈龙团队会引入人工质检员和利用Xiaomi MiMo-VL大模型强大的视觉语言能力进行监督。

第三种方式，运用想象。还是以超车为例，人类会判断自车与前车的距离，变道的距离是否合适，这种对空间和未来的想象力，其实就来自自动驾驶的另一个范式——“世界模型（World Model）”的能力。

陈龙告诉我们，世界模型其实有两种：

· 一种是 “世界仿真模型（World Simulator Model，WSM）” ，能够生成无数接近真实世界的虚拟驾驶场景，包括各种罕见的长尾场景（Corner case）。XLA 能在里面进行无数次驾驶训练，“再结合强化学习，进一步对齐人类偏好”。

· 另一种则是 “世界动作模型（World Action Model）” ，通过喂海量的驾驶数据，模型能想象出未来的行车画面，并通过预判作出驾驶决策。“如果你能想象出未来是什么样的，其实你就知道应该怎么开车了”，陈龙说。

在训练阶段，陈龙团队会要求其将思考过程解码成其想象的画面，之后让XLA将自己解码出来的画面与真实记录的未来画面进行比对，如果算出不同，XLA会自行通过反向传播算法优化网络。

主题：大模型|驾驶|辅助驾驶