登录

李飞飞最新长文:当视频生成、机器人和NVIDIA都自称世界模型,我们需要一个分类法


速读:渲染器输出的是观测,具体来说是面向人眼的像素,而最重要的品质指标是视觉保真度。 所有强化学习教材,包括经典的Sutton和Barto,几十年来一直使用同一幅图的变体来描述智能体如何与世界交互。
2026年06月04日 10:17

“ 世界模型 ” 大概是 2025 年以来 AI 领域里最热也最混乱的概念。 Sora 出来的时候, OpenAI 管它叫世界模拟器;Genie 让你在生成的画面里走来走去,也叫世界模型;机器人公司说自己在做世界模型,NVIDIA 说 Omniverse 是世界模型的基础设施,连游戏引擎也被拉进了这个叙事。大家都在用同一个词,但各自说的 又 完全不是同一件事。

今天 , 李飞飞 在个人  Substack  发 表 了一篇新文章, 对这一概念进行了厘清。她首先 回到强化学习教科书里那个最经典的图(POMDP 闭环:智能体→动作→状态→观测→智能体),然后指出 : 现在被叫做 “ 世界模型 ” 的东西,其实是这个闭环的三种不同投影。输出像素(观测)的是渲染器,输出状态的是模拟器,输出动作的是规划器。分类标准非常简洁,就看你输出的是闭环里的哪个部分。

(来源:《麻省理工科技评论》) 她判断, 三者之中,渲染器商业化最成熟但有天花板(好看不等于物理正确),规划器最令人兴奋但离真实部署最远(实验室演示和实际可用之间的鸿沟依然巨大),而模拟器是被严重低估的关键枢纽。因为模拟器工作在几何、物理和动力学的层面上,既能向上投射为像素供人类消费,也能向下推导出动作后果供机器人使用。掌握了模拟,就同时拥有了渲染和规划的基础;反过来则不行。

这篇文章当然也是 World Labs 的产品宣言。他们的 Marble 已经在同时输出高斯泼溅和碰撞网格,试图把渲染器和模拟器统一到一个模型里。文章末尾描绘的终局是一个统一的世界基础模型,能根据下游需求在渲染、模拟和规划之间自由切换。这个愿景是否能实现另说,但作为一个分析框架,渲染器/模拟器/规划器的三分法 也许 确实有助于穿透当前"世界模型"概念的 一部分 噪音。

全文译出如下。

“ 世界是所有发生的事情的总和。 ”

—— 维特根斯坦,《逻辑哲学论》,1921

世界不是由文字构成的。

在早先的一篇文章中,我们提出空间智能是 AI 的下一个前沿,而世界模型是通向它的路径。在 此 ,World Labs 团队和我想再深入一层:在如今被冠以 “ 世界模型 ” 之名的众多事物中,哪些功能模块真正构成了这种能力?它们各自的用途又是什么?

语言模型赋予了机器对概念、词汇和推理的 强大 掌控力, 但物理世界,无论虚拟还是真实,运行在完全不同的基底之上。语言模型学习的是文本的统计结构,世界模型学习的是空间与时间的统计结构:光如何落在一个表面上,一座花园从一个从未被相机捕捉过的角度看起来是什么样子,物体如何响应力并遵循物理定律。

这使得 “ 世界模型 ” 成了当下 AI 领域最重要、同时也最被滥用的术语之一。计算机视觉、机器人学、强化学习和生成式 AI 都声称自己在构建世界模型,但各自指的是截然不同的东西。一个能生成华丽但物理上不可能的火焰的视频模型,一个即兴生成可玩游戏的语言模型,一个忠实模拟燃烧过程的物理引擎,它们都被叫作同一个名字。

古希腊人从来无法就世界由什么构成达成一致,不管是火、水还是不可分割的原子,因为"世界"从来就不是单一的东西。它始终是某个思想家为了推理某种总体性而使用的替代词。AI 继承了同样的问题,而且恰好发生在这个领域最需要精确性的时刻。

分类法背后的闭环

要厘清这种混乱, 可以 从一张比上述所有技术都更古老的图开始。所有强化学习教材,包括经典的 Sutton 和 Barto ,几十年来一直使用同一幅图的变体来描述智能体如何与世界交互。这幅图的正式名称是部分可观测马尔可夫决策过程(POMDP),而 “ 世界模型 ” 这个术语最初的定义就属于这一传统。

一个智能体(可以是人、机器人或软件系统)执行动作。这些动作改变世界的状态。但智能体永远无法直接看到状态本身,它所接收到的是观测:落在视网膜上的光子、传感器的读数、视频帧中的像素。新的观测引导新的动作,循环往复。

“ 状态 ” 这个词需要拆开来看, 因为在不同领域中它的含义会发生偏移。这里说的不是化学家的状态,不是固态、液态和气态的区别。这里是物理学家和机器人学家的状态:对世界在某一时刻所发生的一切的完整描述,包括每一个物体、每一个位置、每一个速度、每一种属性。状态是世界的底层现实,原则上是完备的,但对于身处其中的任何智能体来说永远不可直接观测。观测是智能体对这一现实的局部视角。动作则是智能体据此做出的回应。

这个闭环(智能体→动作→状态→观测→智能体)正是赋予 “ 世界模型 ” 这个术语其技术含义的结构。这个短语本身更加古老,可以追溯到 Kenneth Craik 在 1943 年的提议,他认为心智通过运行现实的 “ 小比例模型 ” 来进行推理,而到了 1980 年代末和 1990 年代初,这一概念被引入了神经网络领域。这个闭环同样解释了人们今天使用这个术语时的含义。现在被称为世界模型的各种东西,实际上是同一个闭环的不同投影,每一种输出的是闭环中不同的组成部分。

世界模型的三种功能

第一种世界模型是渲染器。 渲染器输出的是观测,具体来说是面向人眼的像素,而最重要的品质指标是视觉保真度。一个将文本提示转化为电影级航拍镜头的视频模型就是渲染器;像 Google的Genie 3 或 World Labs 自己的 RTFM 这样的交互式系统也是渲染器,它们根据用户输入实时生成画面。这类模型不具备对三维结构的显式理解。它生成的是观看者会看到的画面,而不是事物本身的样子。航拍镜头里的建筑从空中看也许完美无瑕,但试着在下面的城市中穿行,它们就会崩塌。

第二种是模拟器。  模拟器输出的是状态:一种在几何、物理或动力学上忠实的世界表征,人类和计算机程序都能在其上进行计算和交互。渲染器的契约是纯视觉的,而模拟器的契约是结构性的,它要求几何经得起检验,物理遵循牛顿定律,动力学的行为符合物理法则的预期。模拟器同时服务两类用户。建筑师、设计师、电影人、游戏开发者等专业人士需要超越视觉可信度的准确性。强化学习智能体、机器人控制器、自动驾驶车辆等计算机程序则把模拟器当作训练场,在其中大规模地与世界交互,测试那些在现实中要么危险、要么昂贵、要么根本不可能执行的场景。

第三种是规划器。 规划器输出的是动作。给定一个观测和一个目标,规划器回答的问题是:智能体下一步该做什么。在很多意义上,规划器是渲染器的逆过程。渲染器以动作为输入、产出观测,规划器以观测为输入、产出动作,从而闭合了感知-行动回路。视觉-语言-动作模型(VLA)、基于模型的系统,以及新一波的世界动作模型(World Action Models),都是规划器的不同尝试:让系统能够在非结构化的世界中决定机器人应该做什么。

以上三个类别涵盖了当前实际在落地的大部分工作,而它们之间的区分在实践中很有用。但这三个类别并非从根本上彼此割裂。它们共享同一套关于世界如何运作的底层知识:几何、物理、动力学。一个能从任意角度渲染一只杯子的模型,原则上也应该能模拟杯子被推动后会发生什么,并规划一只手去把它拿起来。越来越多最有意思的研究,正在有意地模糊这三者之间的边界。

主题:世界模型|模拟器|渲染|规划|渲染器|规划器|机器人