李飞飞最新长文:AI的下一个十年——构建真正具备空间智能的机器
就在昨晚,关于其投身的空间智能,斯坦福大学教授李飞飞发表了一篇长篇博客《From Words to Worlds: Spatial Intelligence is AI’s Next Frontier》。
在文中,李飞飞详细解读了「 空间智能究竟是什么?它为什么重要?我们如何构建它?我们又如何使用它? 」她同时阐述了真正的空间智能世界模型必须实现的核心框架: 构建具有故事讲述者想象力的 AI、具备第一响应者流畅性的 AI 以及以科学精确性进行空间推理 。
以下为全文翻译:
1950 年,当计算机还只是自动化的算术和简单逻辑时,艾伦・图灵提出了一个至今仍余音不绝的问题:机器能思考吗?他拥有非凡的想象力,看到了一个超越时代的可能 —— 智能或许可以被「构建」,而非「诞生」。这一洞见开启了一个持久而伟大的科学征程 —— 人工智能(AI)。在我投身人工智能研究二十五年后的今天,图灵的愿景仍让我心怀敬意与灵感。但我们究竟走到了哪一步?答案并不简单。
如今,以大语言模型(LLM)为代表的前沿 AI 技术,已经开始改变我们获取和运用抽象知识的方式。然而,它们依然像是「黑暗中的文匠」:能言善辩却缺乏经验,知识丰富却脱离现实。 空间智能将彻底改变我们创造和交互现实与虚拟世界的方式 —— 它将重塑叙事、创意、机器人学、科学发现等领域。这正是 AI 的下一个前沿 。
自我踏入这一领域以来,对视觉与空间智能的追求一直是我心中的北极星。这也是我花费多年时间创建 ImageNet 的原因 —— 这是首个大规模视觉学习与评测数据集,与神经网络算法和现代计算(如图形处理器 GPU)一道,构成了现代人工智能诞生的三大基石。这也是为什么我的斯坦福实验室在过去十年中,持续探索将计算机视觉与机器人学习相结合。
而这一追求,也促使我与合伙人 Justin Johnson、Christoph Lassner、Ben Mildenhall 共同创立了 World Labs—— 在一年多前,我们立志首次将这一愿景彻底实现。在这篇文章中,我将阐述什么是空间智能、它为何重要,以及我们如何构建能够释放空间智能潜力的世界模型 —— 这种能力将深刻影响创造力、具身智能与人类的未来进步。
空间智能:
人类认知的脚手架
人工智能正处在前所未有的激动人心时刻。生成式 AI 模型 —— 例如大语言模型(LLM)—— 已经从研究实验室走入日常生活,成为数十亿人创造、工作与沟通的工具。它们展现出了曾被认为不可能的能力:能够轻松生成连贯的文本、海量的代码、逼真的图像,甚至短视频片段。如今,问题已不再是「人工智能是否会改变世界」,而是「它已经如何改变了世界」。
然而,仍有许多目标尚未触及。自主机器人的愿景依旧令人神往,却依然停留在推测阶段,离未来学家长期描绘的日常现实仍有距离。在疾病治疗、新材料发现、粒子物理等领域,人工智能加速科研的梦想也尚未真正实现。而一种能够真正理解并赋能人类创造者的 AI—— 无论是学习分子化学复杂概念的学生、构思空间的建筑师、构建世界的电影创作者,还是渴望沉浸式虚拟体验的任何人 —— 这一承诺仍未兑现。
要理解这些能力为何依然难以实现,我们需要回溯空间智能的演化历程,并审视它如何塑造了我们对世界的理解。
视觉一直是人类智能的基石,但它的力量源自更为根本的东西。早在动物学会筑巢、照料幼崽、用语言交流或建立文明之前,最简单的「感知」行为,便悄然点燃了一场通向智能的进化旅程。
这种看似孤立的能力 —— 从外部世界中提取信息,无论是一道微光,还是一种触感 —— 在感知与生存之间搭起了一座桥梁,并随着世代更迭不断加固、延展。神经元层层叠加,沿着这座桥梁生长,形成了能解释世界、协调生物体与环境互动的神经系统。正因如此,许多科学家推测,感知与行动构成了驱动智能演化的核心循环,也成为自然创造人类这一物种的根基 —— 一种集感知、学习、思考与行动于一体的终极体现。
空间智能在定义人类如何与物理世界互动中起着根本性的作用 。每天,我们都依赖它完成最平常的行为:停车时通过想象车尾与路缘之间逐渐缩小的间隙来判断距离;接住被人扔来的钥匙;在人群密集的人行道上穿行而不相撞;或者在半睡半醒间不看杯子也能准确地把咖啡倒进去。在更极端的情境中,消防员在浓烟弥漫、结构不断坍塌的建筑中穿行,瞬间判断稳定与危险,依靠手势、身体语言以及一种无法用言语表达的职业直觉进行协作。
而婴儿在还未学会说话的数月甚至数年中,正是通过与环境的嬉戏互动来认识世界。所有这一切都在无意识间、自动地完成 —— 这种流畅性,是机器至今尚未具备的。
空间智能同样是人类想象力与创造力的基础 。讲故事的人在脑海中构建独特而丰富的世界,并借助各种视觉媒介将其传达给他人 —— 从史前的洞穴壁画,到现代电影,再到沉浸式电子游戏。无论是孩子在沙滩上筑起的沙堡,还是他们在电脑上玩《我的世界》所创造的空间,这种基于空间的想象力构成了现实与虚拟世界中交互体验的核心。而在众多行业应用中,对物体、场景和动态交互环境的模拟,正支撑着从工业设计到数字孪生再到机器人训练的无数关键业务场景。
纵观历史,空间智能在推动文明发展的关键时刻屡次扮演核心角色。在古希腊,埃拉托色尼通过几何化阴影来揭示地球的尺度 —— 他在亚历山大测量出七度的日影角度,并在太阳直射、影子消失的赛恩进行对比,计算出了地球的周长。哈格里夫斯通过一个空间构想发明了「珍妮纺纱机」:将多个纺锤并列在同一架构中,使一个工人能够同时纺出多股纱线,生产效率因此提升八倍。沃森和克里克通过亲手搭建三维分子模型、不断调整金属板与铁丝的位置,最终发现了 DNA 的双螺旋结构。
当科学家与发明家需要操纵物体、想象结构、推理空间关系时,正是空间智能推动了人类文明的跃进 —— 而这些都无法仅凭文字所捕捉。
空间智能是支撑人类认知的脚手架 。无论我们是在被动观察,还是主动创造,它都在发挥作用。它驱动我们的推理与规划,哪怕是在最抽象的思维领域;它也是我们与他人、与环境进行互动 —— 无论通过语言还是行动 —— 所必不可少的能力。虽然我们大多数人并不会像埃拉托色尼那样揭示新的宇宙真理,但我们几乎每天都以相似的方式思考 —— 通过感官理解复杂的世界,并凭借对物理与空间规律的直觉掌握,来形成认知与判断。
遗憾的是,当下的人工智能尚未具备这种思维方式。
过去几年,AI 的确取得了巨大进步。多模态大语言模型(MLLM)在文本之外引入了海量的多媒体数据,使 AI 具备了初步的空间感知能力。如今,AI 已经能够分析图像、回答相关问题,并生成高度逼真的图片和短视频。借助传感器与触觉技术的突破,最先进的机器人也开始能够在高度受限的环境中操纵物体与工具。
然而,坦率地说,AI 的空间能力仍与人类相距甚远,这一差距显而易见。最先进的多模态模型在估算距离、方向和大小等任务上,其表现往往仅略高于随机水平;在「心智旋转」(从不同角度重新生成物体)的测试中也极为有限。它们无法穿越迷宫,不能识别捷径,也无法预测最基本的物理规律。AI 生成的视频 —— 虽令人惊叹,但往往在数秒后便失去连贯性。
当前最先进的 AI 在阅读、写作、研究和数据模式识别方面表现出色,但在对物理世界的表征与交互上却存在根本性局限 。人类对世界的理解是整体性的 —— 不仅关乎我们「看见了什么」,还包括事物在空间上的关系、它们的意义以及彼此的关联。 通过想象、推理、创造与互动来理解世界,而非仅仅依赖语言描述,这正是空间智能的力量 。没有它,AI 就与它试图理解的物理现实脱节,无法真正安全高效地驾驶汽车、引导家庭或医院中的机器人,也难以实现学习与娱乐中的沉浸式互动体验,更无法加速材料科学与医学中的突破性发现。
哲学家维特根斯坦曾说,「我的语言的界限意味着我的世界的界限」。我不是哲学家,但我深知,对人工智能而言,世界远不止语言本身。 空间智能代表着超越语言的前沿 —— 它连接了想象、感知与行动,开启了机器真正赋能人类生活的可能,从医疗到创造力,从科学发现到日常助理 。
AI 的下一个十年:
构建真正具备空间智能的机器
那么,我们该如何打造具备空间智能的 AI?通往那样的模型之路是什么样的?它不仅能像埃拉托色尼那样进行空间推理,像工业设计师那样精准构造,像讲故事的人那样富于想象,还能像应急救援人员那样自然地与环境互动。
要实现空间智能,我们需要的远不止 LLM 那样的体系,而是更具雄心的 「世界模型」—— 一种新型生成式模型,能够在语义、物理、几何与动态等多重复杂世界(无论虚拟还是现实)中进行理解、推理、生成与交互 。
这一领域仍处在萌芽阶段,当前的研究方法从抽象推理模型到视频生成系统皆有涉及。World Labs 正是在这一信念之上,于 2024 年初创立:即世界模型的基础方法尚在确立之中,而这正是未来十年人工智能的关键挑战所在。
在这一新兴领域中,最重要的是确立指导发展的基本原则。对于空间智能而言,我将「世界模型」定义为具备以下三种核心能力的系统:
一是生成性:世界模型能够生成在感知、几何与物理层面保持一致的世界 。
要解锁空间理解与推理的能力,世界模型必须能够生成属于自己的模拟世界。它需要具备创造出无限多样的虚拟世界的能力,这些世界必须遵循语义或感知层面的指令,同时在几何、物理和动态层面保持一致性 —— 无论这些世界对应的是现实空间还是虚拟空间。研究界目前正积极探索这些世界的内部几何结构应当以隐式还是显式的方式表示。
除此之外,我认为,除了强大的潜在表征之外,一个通用的世界模型还必须能够生成明确、可观测的世界状态,以适配不同的应用场景。尤其重要的是,它对当前世界的理解,必须与过去保持连贯 —— 与导致这一现状的先前世界状态相一致。
二是多模态性:世界模型在设计上即是多模态的 。
正如动物与人类一样,世界模型应能够处理多种形式的输入 —— 在生成式 AI 中通常被称为提示词。当输入信息不完整时,无论是图像、视频、深度图、文本指令、手势还是动作,世界模型都应能够预测或生成尽可能完整的世界状态。这要求模型具备如真实视觉般处理视觉输入的能力,同时又能同样熟练地理解语义指令。这样的能力使得智能体与人类能够通过多样化的输入方式与模型就世界进行交流,并获得多样化的输出反馈。
三是交互性:世界模型能够根据输入的动作生成下一个世界状态 。
当动作和 / 或目标成为世界模型的输入提示时,其输出必须包括世界的下一个状态 —— 可以是隐式的,也可以是显式的。当输入仅包含一个动作,或者包含动作与目标状态时,世界模型应能生成与先前世界状态、预期目标(若有)、语义含义、物理规律及动态行为相一致的输出。随着空间智能世界模型在推理与生成能力上的不断增强,可以想见,在某些情况下,模型不仅能预测世界的下一状态,还能基于这一新状态,进一步预测实现目标所需的下一步行动。
这一挑战的规模,超出了人工智能以往所面对的一切。
语言只是人类认知中一种纯粹的生成现象,而「世界」则遵循着远为复杂的规律。在地球上,重力主宰着运动,原子结构决定了光如何产生色彩与亮度,无数物理定律约束着每一次交互。即便是最奇幻、最具创造力的世界,其构成的空间物体与行动主体,也都必须服从特定的物理法则与动态行为。要在语义、几何、动态与物理层面上实现一致的统一与协调,需要全新的技术与理论路径。
相较于语言这样一维、顺序性的信号,对「世界」的表征在维度与复杂度上要庞大得多。要让世界模型具备人类所拥有的那种普适能力,必须突破多个艰巨的技术壁垒。在 World Labs,我们的研究团队正致力于在这一目标上取得根本性的进展。
以下是我们当前的一些研究方向:
1、一种新的通用训练任务函数 :
为世界模型定义一种像 LLM 中的「下一 token 预测」那样简洁优雅的通用任务函数,一直是该领域的核心目标之一。然而,由于世界模型在输入与输出空间上的复杂性,使得这种函数的构建本身极具挑战。尽管仍有大量未知有待探索,但这种目标函数及其对应的表征方式,必须能够反映几何与物理规律,体现世界模型作为联结想象与现实的基础性表征体系的本质特征。
2、大规模训练数据 :
训练世界模型所需的数据远比文本更为复杂。好消息是,大规模数据源已经存在。互联网上海量的图像与视频,提供了丰富且可获取的训练材料,真正的挑战在于如何研发能够从二维图像或视频帧(即 RGB 信号)中提取更深层空间信息的算法。过去十年的研究表明,在语言模型中,数据量与模型规模之间存在明确的「scaling laws」;对于世界模型而言,关键在于构建能够在相似规模上充分利用现有视觉数据的架构。
此外,高质量的合成数据,以及诸如深度信息与触觉信息等额外模态,也将在训练过程中的关键阶段发挥重要作用。但要实现这一目标,我们仍需更先进的传感系统、更稳健的信号提取算法,以及更强大的神经模拟方法。
3、新型模型架构与表征学习 :
世界模型的研究将不可避免地推动模型架构与学习算法的革新,尤其是在超越当前 MLLM 与视频扩散模型范式的方向上。现有方法通常将数据离散化为一维或二维序列,这使得一些简单的空间任务变得不必要地困难 —— 比如统计短视频中独特的椅子数量,或记住一个房间一小时前的样子。替代性架构可能带来突破,例如具备三维或四维感知能力的分词、上下文和记忆机制。
以 World Labs 为例,我们最近开发的实时生成帧模型 RTFM(Real-Time Frame-based Model)正体现了这一方向的转变。它将空间锚定的帧作为一种空间记忆形式,在保持生成世界连续性与一致性的同时,实现了高效的实时生成。
显然,在通过世界模型彻底释放空间智能之前,我们仍面临着艰巨的挑战。这项研究不仅仅是理论探索,它将成为新一代创造力与生产力工具的核心引擎。而来自 World Labs 的最新进展令人振奋。我们近日首次向少量用户展示了 Marble 的早期成果 —— 这是首个能够通过多模态输入进行提示,从而生成并维持一致性三维环境的世界模型。用户与创作者可以在其中探索、交互,并在创作流程中不断扩展这一虚拟世界。我们也正全力推进,让它尽快向公众开放。