DeepSeek阮翀加盟元戎首秀，详解基座VLA，研发提效10倍

速读：评估模型评估AI司机开车的表现。但我认为物理AI最重要的事其实是闭环。

2026-04-26 11:51:25

一凡发自副驾寺

智能车参考 | 公众号 AI4Auto

前DeepSeek核心成员阮翀，加盟元戎后首次亮相了。

阮翀(chōng），本硕均毕业于北京大学，早年从事NLP研发，2023年加入DeepSeek，参与了DeepSeek VL、V3和R1等工作，是 VL2的通讯作者，也是最新发布的 V4的作者之一。

△图源：DeepSeek V4论文 △ 图源：DeepSeek V4论文如今他以新身份元戎首席科学家，现身北京车展，分享了元戎如何利用40B基座模型，评估模型表现，用模型迭代模型的过程。

这意味着 AI不再是被训练出的结果，而是训练系统本身的组成部分。这也是AI领域当前的趋势。

比如，同样是在自动驾驶行业，小马智行最近发布世界模型2.0，就具备自我诊断能力，可以实现自我强化。

再比如，OpenAI今年在发布 GPT-5.3 Codex时透露，该模型的早期版本，加速了其自身的开发进度。

在数字世界和物理世界，AI都初步呈现出自我进化的趋势。而能同时深刻理解这两个领域的人才，非常稀缺，阮翀正是这样一位罕见的人才，从LLM转身自动驾驶，横跨两大领域。

阮翀详解基座模型，元戎研发提效10倍

据阮翀介绍，过去自动驾驶研发，会选择用很多小模型，专门解决不同的问题，这给开发和管理，带来了很多挑战。

所以，行业正在向统一基座模型收敛，用一个大模型，分化出多个不同版本，解决几乎所有问题。

其中元戎的基座模型，是一个40B参数规模的VLA（Vision-Language-Action Model），可以拆分成三个部分来看：

驾驶模型：AI司机，专门负责开车

分析模型：AI分析员，分析和解释AI司机为什么这么开

评估模型：AI教练，评估AI司机开车的表现

基座模型如何落地，加速元戎开发呢？阮翀举了三个例子。

第一个例子是数据表征任务。自动驾驶研发的关键，是实现数据闭环，但阮翀认为过去数据驱动的方式，其实带有滞后性：

你必须先训练出模型，才能发现模型的问题，进而知道哪些数据不够。

数据表征则改变了这个顺序，它可以提前分析数据，并进行归类，这样研发团队在训练前就知道，自己手头什么场景的数据多，又缺什么场景数据，在训练时就可以有所侧重，调整数据配比。

第二个例子是数据质量评估。过去分析数据质量，需要通过间接方式，根据这批数据，训出的模型表现，反推数据质量，迭代周期比较长。

现在基于一个庞大的基座模型，只需要进行简单的微调，就能评估数据质量。

最后，基座模型不仅在数据维度实现了提效，同时也加快了模型评估。过去评估模型能力，主要依赖路测，要先更新模型上车，再找人跟车，实测后回传数据，这种方式费时又费力。

现在利用云端虚拟环境，就能评估模型，判断AI司机开得好不好，并进行修正。

据阮翀估计，以前迭代一版模型可能需要100多个小时，现在加速了10倍，迭代时间缩短到了十几个小时。

在详解技术成果后，阮翀还参与了圆桌讨论，回应了外界最关心的问题：

为什么他会加盟元戎，转向物理AI？

以下是圆桌实录，经编辑

阮翀回应入局物理AI

Q：什么才是物理AI？

阮翀：从狭义的角度讲，物理AI一定要有一个现实载体，比如人能操纵它，然后现实世界会给出反馈，像机械手或者车。

但我认为物理AI最重要的事其实是闭环。

所以从广义的角度讲，比如说 AI Coding ，写了代码然后编译器会给出反馈，告诉你这个地方写了对不对，然后你再去调试。

只有这样的一个闭环，才是AI真正进入物理世界的最重要手段，能够让它不断提升。

Q：什么情况让你意识到了大模型的能力边界？

阮翀：我认为视觉模型现在最难的问题是空间方位感知，经常前后左右不分，然后导致一些奇奇怪怪的行为，比如分不清车门在左边还是右边，东西在车内和车外。

Q：哪些领域的突破性进展，值得大模型借鉴？

阮翀：我想强调的一个概念还是闭环。我觉得这个问题可以反过来看，就是如何把LLM推广到其他领域，比如用AI去预测化学分子性质，比如它的熔点或溶解度，然后用这项技术，加速药物研发。