登录

DeepSeek阮翀加盟元戎首秀,详解基座VLA,研发提效10倍


速读:评估模型评估AI司机开车的表现。 但我认为物理AI最重要的事其实是闭环。
2026-04-26 11:51:25

一凡 发自 副驾寺

智能车参考 | 公众号 AI4Auto

前DeepSeek核心成员 阮翀 ,加盟元戎后首次亮相了。

阮翀(chōng) ,本硕均毕业于北京大学,早年从事NLP研发,2023年加入DeepSeek,参与了DeepSeek VL、V3和R1等工作,是 VL2的通讯作者 ,也是最新发布的 V4的作者之一 。

△图源:DeepSeek V4论文 △ 图源:DeepSeek V4论文 如今他以新身份 元戎首席科学家 ,现身北京车展,分享了元戎如何利用40B基座模型, 评估模型表现,用模型迭代模型 的过程。

这意味着 AI不再是被训练出的结果,而是训练系统本身的组成部分 。这也是AI领域当前的趋势。

比如,同样是在自动驾驶行业,小马智行最近发布世界模型2.0,就具备自我诊断能力,可以实现自我强化。

再比如,OpenAI今年在发布 GPT-5.3 Codex时透露,该模型的早期版本,加速了其自身的开发进度。

在数字世界和物理世界,AI都初步呈现出自我进化的趋势。而能同时深刻理解这两个领域的人才,非常稀缺,阮翀正是这样一位罕见的人才,从LLM转身自动驾驶,横跨两大领域。

阮翀详解基座模型,元戎研发提效10倍

据阮翀介绍,过去自动驾驶研发,会选择用很多小模型,专门解决不同的问题,这给开发和管理,带来了很多挑战。

所以,行业正在向统一基座模型收敛, 用一个大模型,分化出多个不同版本 ,解决几乎所有问题。

其中元戎的基座模型,是一个40B参数规模的VLA(Vision-Language-Action Model),可以拆分成三个部分来看:

驾驶模型 :AI司机,专门负责开车

分析模型 :AI分析员,分析和解释AI司机为什么这么开

评估模型 :AI教练,评估AI司机开车的表现

基座模型如何落地,加速元戎开发呢?阮翀举了三个例子。

第一个例子是 数据表征 任务。自动驾驶研发的关键,是实现数据闭环,但阮翀认为过去 数据驱动的方式,其实带有滞后性 :

你必须先训练出模型,才能发现模型的问题,进而知道哪些数据不够。

数据表征则改变了这个顺序,它可以提前分析数据,并进行归类,这样研发团队 在训练前 就知道,自己手头什么场景的数据多,又缺什么场景数据,在训练时就可以有所侧重,调整数据配比。

第二个例子是数据质量评估。过去分析数据质量,需要通过间接方式,根据这批数据,训出的模型表现,反推数据质量,迭代周期比较长。

现在基于一个庞大的基座模型,只需要进行简单的微调,就能 评估数据质量 。

最后,基座模型不仅在数据维度实现了提效,同时也加快了 模型评估 。过去评估模型能力,主要依赖路测,要先更新模型上车,再找人跟车,实测后回传数据,这种方式费时又费力。

现在利用云端虚拟环境,就能评估模型,判断AI司机开得好不好,并进行修正。

据阮翀估计,以前迭代一版模型可能需要100多个小时, 现在加速了10倍 ,迭代时间缩短到了十几个小时。

在详解技术成果后,阮翀还参与了圆桌讨论,回应了外界最关心的问题:

为什么他会加盟元戎,转向物理AI?

以下是圆桌实录,经编辑

阮翀回应入局物理AI

Q:什么才是物理AI?

阮翀 :从 狭义 的角度讲, 物理AI一定要有一个现实载体 ,比如人能操纵它,然后现实世界会给出反馈,像机械手或者车。

但我认为物理AI最重要的事其实是闭环。

所以从 广义 的角度讲,比如说 AI Coding ,写了代码然后编译器会给出反馈,告诉你这个地方写了对不对,然后你再去调试。

只有这样的一个闭环,才是AI真正进入物理世界的最重要手段,能够让它不断提升。

Q:什么情况让你意识到了大模型的能力边界?

阮翀 :我认为视觉模型现在最难的问题是 空间方位感知 ,经常前后左右不分,然后导致一些奇奇怪怪的行为,比如分不清车门在左边还是右边,东西在车内和车外。

Q:哪些领域的突破性进展,值得大模型借鉴?

阮翀 :我想强调的一个概念还是 闭环 。 我觉得这个问题可以反过来看 ,就是如何把LLM推广到其他领域,比如用AI去预测化学分子性质,比如它的熔点或溶解度,然后用这项技术,加速药物研发。

主题:阮翀|基座模型|自动驾驶研发|评估模型