都别吵了，李飞飞把「世界模型」定义和重点讲清楚了

速读：毫无疑问，「世界模型」是今年最受瞩目的方向之一。都别吵了，李飞飞把「世界模型」定义和重点讲清楚了2026年06月04日11:52机器之心Pro「世界模型，是所有人都会抵达的终点。为了厘清概念，文章引用了强化学习领域的经典理论——部分可观测马尔可夫决策过程（POMDP）。二是强化学习智能体、机器人控制器、自动驾驶系统等计算机程序，它们将模拟器用作大规模训练场景，在虚拟环境中测试现实中危险、昂贵或不可能实施的场景。模拟器输出的是世界状态本身——在几何、物理或动力学上都忠实于现实的表示。

2026年06月04日 11:5

「世界模型，是所有人都会抵达的终点。这条路我现在已经 all-in 了，你跟不跟？」谢赛宁曾在前段时间接受采访时说道。

毫无疑问，「世界模型」是今年最受瞩目的方向之一。无论你是做视频生成还是具身智能，投资人都不免问一句，「你们在世界模型上有什么规划？」

然而，一个尴尬的现状是：关于什么是世界模型，大家还没有达成共识。

李飞飞与 World Labs 团队在近期发表的文章中对这一混乱进行了系统的澄清，为整个领域提供了一个统一的语言和思考框架。

文章链接：https://x.com/drfeifei/status/2062247238143996275

这篇文章在社交媒体上引发了广泛的思考，非常值得一读。

以下是我们根据原文整理的内容。

问题的根源：概念混乱

文章首先指出，当前业界在谈论「世界模型」时，存在严重的概念混淆。计算机视觉、机器人学、强化学习和生成 AI 等多个领域都声称在开发世界模型，但各自指代的内容却截然不同。一个能生成视觉效果逼真但物理上不可能的火焰的视频模型、一个即兴创作可玩游戏的语言模型、以及一个能准确模拟燃烧过程的物理引擎 —— 这三样东西如今都被冠以「世界模型」的名号。

李飞飞认为，这个问题的深层原因是对「世界」本身定义的模糊。正如古希腊哲学家对世界的本质众说纷纭一样，现代 AI 也继承了这一问题，且恰好发生在这个领域最需要精确定义的时刻。

理论框架：强化学习中的循环

为了厘清概念，文章引用了强化学习领域的经典理论 —— 部分可观测马尔可夫决策过程（POMDP）。这一框架描述了智能体与世界的互动循环：

智能体采取行动 → 行动改变世界状态 → 产生观察信息 → 驱动下一步行动

在这个过程中，「状态」指的是世界在某一时刻的完整描述 —— 包括所有物体、位置、速度和属性。然而，智能体永远无法直接感知状态本身，只能通过观察（图像、传感器数据、视频帧等）获得对现实的片面认知。

李飞飞认为，当今被称为「世界模型」的各类系统，本质上都是这个循环的不同投影。它们各自输出循环中的不同部分。

三种功能性的世界模型

基于这一框架，作者提出了三种不同功能的世界模型：

渲染器（Renderer）

渲染器的职责是输出观察信息，通常以人眼能够理解的像素形式呈现。衡量渲染器好坏的主要标准是视觉保真度 —— 画面有多逼真。

文中举例包括文本生成视频模型（如无人机航拍视效）和交互式系统（如 Google 的 Genie 3 或 World Labs 的 RTFM），这些系统能根据用户输入实时生成画面。其特点是对三维结构没有显式理解 —— 它呈现的是观看者会看到的样子，而非实际情况。这就是为什么一个城市在俯视图上看起来完美无缺，但从城市内部驾驶却会发现建筑物「崩坏」。

模拟器（Simulator）

模拟器输出的是世界状态本身 —— 在几何、物理或动力学上都忠实于现实的表示。相比渲染器只需视觉说服力，模拟器需要满足更严苛的结构契约：几何关系必须经得起推敲，物理过程必须遵守牛顿定律，动态行为必须符合物理规律。

模拟器面向两类使用者：一是建筑师、设计师、电影制作人、游戏开发者等专业人士，他们需要超越视觉真实感的准确性；二是强化学习智能体、机器人控制器、自动驾驶系统等计算机程序，它们将模拟器用作大规模训练场景，在虚拟环境中测试现实中危险、昂贵或不可能实施的场景。

规划器（Planner）

规划器输出的是动作 —— 智能体在给定观察和目标的情况下应该采取的下一步行动。某种意义上，规划器是渲染器的逆过程：渲染器将行动作为输入转换为观察，规划器则以观察为输入产生行动，由此闭合感知 - 行动循环。

文中提到的视觉语言行动模型（VLA）、基于模型的系统和新兴的世界行动模型，都是规划器的实现形式 —— 力图让机器人在非结构化环境中做出正确决策。

三者的隐秘关联

虽然这三类可以单独界定，但它们共享同一个根基：对世界如何运作的深层认识 —— 几何、物理、动力学。理论上，一个真正理解世界的模型应该能够完成所有三项任务：从多个角度渲染一个杯子的样子，模拟杯子被推动时会发生什么，以及规划一只手该如何去拿起这个杯子。

正如文章所指出的，当前最有趣的研究已经开始有意识地模糊这三个类别之间的界限。