登录

黄仁勋开源VLA模型一夜削平自动驾驶门槛



速读:取而代之的是物理AI,黄仁勋在90分钟的新年第一讲中,藏不住对AI世界的野望,用他自己的话说,今天这里要“塞进去”的内容大概有15公斤那么多。
2026年01月06日 18:23

2026 CES ,黄仁勋穿着皮夹克又来了。

不同的是,皮夹克换成了更贵的鳄鱼皮,也没有像往届一样发布备受关注的游戏显卡,这是五年来,英伟达首次在CES却没有发布电脑显卡。

取而代之的是物理AI,黄仁勋在90分钟的新年第一讲中,藏不住对AI世界的野望,用他自己的话说,今天这里要“塞进去”的内容大概有15公斤那么多。

从前沿的算力架构、自动驾驶,到庞大的开源模型生态,再到多模态AI应用、物理AI、边缘计算等未来的AI应用,英伟达全都要。

黄仁勋认为:“物理AI的‘ChatGPT时刻’近在咫尺,但挑战很明确。物理世界多样且不可预测。收集真实世界训练数据缓慢又昂贵,而且永远不够。所以答案是合成数据”?。

而在其看来,自动驾驶将会是最早受益的应用之一。

01 奔驰先吃螃蟹

“我们正站在一个关键拐点上——从‘非自动驾驶’向‘自动驾驶’过渡。这个转变,很可能就在未来十年内发生。”黄仁勋相当确信,全球将有非常非常大比例的汽车,会实现自动驾驶或高度自动驾驶。

在90分钟的演讲中,有关自动驾驶的内容占据了很大比重。

因为其开源了英伟达最新的自动驾驶大模型 Alpamayo,不仅对模型进行了开源,还开源了训练这些模型所使用的数据。这也意味着,很多此前不具备VLA模型开发经验的中小团队,也能获得与巨头同等的技术积累,自动驾驶研发门槛一夜就被削去了。

黄仁勋表示,这是全球首个具备思考、推理能力的自动驾驶汽车AI,其中包括全球首个用于自动驾驶的开源推理VLA模型Alpamayo R1,和用于高保真自动驾驶测试的完全开源仿真框架AlpaSim。

用黄仁勋话来说,Alpamayo 是真正意义上的端到端:从摄像头输入,到执行器输出。它使用了大量由人类驾驶员驾驶的真实里程数据,也使用了大量由Cosmos 生成的合成里程数据。除此之外,还有数十万个样本被极其精细地标注,用来教会这辆车如何驾驶。

Alpamayo最大的突破在于它是“推理型”自动驾驶模型,用以解决驾驶存在着极其庞大的“长尾问题”。

传统自动驾驶系统是“感知-规划-控制”的流水线架构,看到红灯就刹车,看到行人就减速,遵循预设规则。而Alpamayo引入了“推理”能力,理解复杂场景中的因果关系,预测其他车辆和行人的意图,甚至能处理需要多步思考的决策。

比如在十字路口,它不只是识别出“前方有车”,而是能推理”那辆车可能要左转,所以我应该等它先过”,这种能力让自动驾驶从“按规则行驶”升级到“像人一样思考”。现场演示中,老黄给出了一段Alpamayo全程零接管点到点的Demo。

这其中得益于Cosmos物理AI世界基础模型,用海量视频、真实驾驶与机器人数据,以及3D模拟做过预训练,它能理解世界是怎么运行的,把语言、图像、3D和动作联系起来。

依据3D场景生成逼真的视频,根据驾驶数据生成符合物理规律的运动,还能从模拟器、多摄像头画面或文字描述生成全景视频,就连罕见场景,也能还原出来。

结果就是,规划精度提升12%、越界率降低35%、近碰率降低25%、推理-行动一致性提升37%、端到端延迟降低到99ms。

之所以能够解决驾驶中的“长尾问题”,黄仁勋用了更通俗易懂的话来表述,核心在于“拆解”。

黄仁勋承认,我们不可能收集到在每一个国家、每一种环境、每一种条件下、对所有人群来说、可能发生的每一个场景的数据。然而非常重要的一点是,如果把这些场景拆解成许多更小的子场景,它们其实对人类来说都是非常常见、非常容易理解的情况。

主题:黄仁勋|数据|英伟达|在90分钟