登录

世界模型赛道,VAST选了一条还没有人走过的路


速读:单纯的3D静态资产撑不起一个可交互的世界,曹炎培认为,资产只是「世界底层的状态」,离一个会运转的世界还差着一整套规则。 底层是结构化状态,管的是这个世界里有什么、发生了什么——场景几何、物体身份、事件逻辑,完全独立于任何相机视角。 像是做了这个动作之后,这个视角下能看到哪些物体、它们的大致空间关系、当前发生了哪些事件变化等。 那问题也来了,世界模型的状态和画面为什么要拆开,又为什么是VAST先采取这样的方式?
2026年06月01日 17:05

今年除了 Agent 赛道,世界模型也成为 AI 行业新的必争之地,前段时间李飞飞和杨立昆相继宣布获得 10 亿美元融资,世界模型也走到了一个十字路口。

APPSO 曾分析过当前世界模型的五大门派,它们有着不同的技术路线,如杨立昆的 JEPA 派,是做抽象表征预测;李飞飞的空间智能派,用 World Labs 的 Marble 在做显式 3D 重建;DeepMind 的学习型仿真派,推出 Genie 实现可交互虚拟环境等。

▲ 图片由 AI 生成 ▲ 图片由 AI 生成

这些早在 ChatGPT 出现前的 AI 学者,甚至是 AI 教父/教母,都在说 大语言模型的文本训练范式已到瓶颈,AI 要理解物理世界必须靠世界模型,但到底要做什么样的「世界模型」,没有一个达成共识的定义 。

这几天,AI 公司 VAST 完成了 A+ 及 A++ 轮的融资,合计金额近 2 亿美元。而在今年三月初,VAST 才完成了 5000 万美元的 A 轮融资。

提到 VAST,可能会有点陌生,但是 Tripo 3D 生成是不是很耳熟?我们之前分享的 Seedance 2.0 x GPT Image 2 两大模型的组合玩法,就曾多次提到过 利用 Tripo AI 将 GPT Image 2 生成的多视角图片,转成一个 3D 模型。

▲ Tripo 是 VAST 旗下的通用 3D 大模型 ▲ Tripo 是 VAST 旗下的通用 3D 大模型

VAST 首席科学家曹炎培表示,从第一天开始,VAST 真正在做的,就是解锁下一代互动内容的底层基础设施,也是为通用人工智能打造专属世界底座。

这件事被拆成了两步,第一步完成 「 造万物 」;第二步实现动态 「 造世界 」,为用户和智能体提供可演化、可试错的完整虚拟环境。

造万物,是用 AI 3D 生成那些符合管线标准的资产;造世界,才是世界模型要干的事,理解空间尺度、状态演化,从而支持多人交互。

单纯的 3D 静态资产撑不起一个可交互的世界,曹炎培认为, 资产只是「世界底层的状态」,离一个会运转的世界还差着一整套规则。

和五大门派都不一样的地方在于,过去的世界模型把状态和画面压在一个模型里一起预测,VAST 把这两件事拆开, 底层单独维护一个世界状态,上层按需渲染画面 。

这样做的好处是,状态独立存在,物体离开镜头不会消失; 一个状态可以同时给多个人渲染不同视角,多人交互并发自然成立 ;用户对世界的改变会真实留在状态里,下一个进来的人看到同样的结果。

VAST 推出的 Project Eden,正是用这套逻辑把世界模型重做了一遍。 它也成为全球首个允许对世界状态进行独立维护与确定性控制的世界模型。

那问题也来了,世界模型的状态和画面为什么要拆开,又为什么是 VAST 先采取这样的方式?

画面流畅不等于世界在运转

视频生成做得更流畅,可以叫世界模型。静态 3D 场景能走动,叫世界模型。能控制视角,也能叫世界模型。

世界模型这个词,似乎什么都能往里装了。

Google Genie 的演示视频里,玩家在里面操控一个角色,往前走,画面跟着生成。但可能一转身,背后的场景就改变了,或者出现从没存在过的东西,因为 Genie 是靠最近几帧的记忆猜我们身后有什么。

▲ Genie 这一类世界模型,本质上是生成了一段视觉上连贯的视频 ▲ Genie 这一类世界模型,本质上是生成了一段视觉上连贯的视频

我们把这一类称为视频生成派,在他们的技术实现里,世界模型就是预测下一帧,给模型喂动作输入,让它生成接下来的画面,反复接龙,就能模拟一个世界。

曹炎培管这种叫「一镜到底」,空间、事件、视角、外观全被压进一段自回归视频的历史帧里。镜头一移开,那个位置的状态没人保管,等你回头,模型只能靠 Transformer 里的 KV cache 重新幻想一遍。

说白了,它记住的不是世界,是几帧画面。

而另一类是李飞飞的 World Labs、腾讯的 HY World,可以被称为空间智能派,能够导出可复用的 3D 资产是这类模型最常见的特征。

他们尝试先把三维空间构建出来,让 AI 真正理解几何和物理关系,再谈其他。

例如,World Labs 的 Marble 能生成一段有限范围的世界,我们可以在里面自由游览。在这个生成的固定世界里,视角一致性解决了,因为 3D 资产是静态的。但同时,这个世界也丢失了时间维度,场景永远停在生成那一刻,没有物理变化,没有事件发生,没有因果关系。

▲ 生成的世界是固定的,灯不会随着时间的流逝熄灭,天也不会亮 ▲ 生成的世界是固定的,灯不会随着时间的流逝熄灭,天也不会亮

我们能走进去,但什么都改变不了,也没有什么会因为我们的行为而变化。

对 VAST 来说,世界模型不能只是去生成像素,也不能只是一个静态空间。

一个可交互的世界模型,必须有一个跨时间持续存在、能被多视角同时观察和查询的底层状态,而且这个状态是在不断被更新的。

像做大世界游戏一样做世界模型

既然无法把空间、事件、视角等状态压缩进单一的视觉信息里,那就彻底把它们拆开。

就像我们玩的大世界游戏一样,游戏的服务器会维护着一套世界状态,谁在哪里、什么东西被打坏了、哪个宝箱被开启了。我们的电脑屏幕只是基于这套状态,结合本地文件夹里上百 G 的游戏文件,做一次实时渲染。

地图数据和画面渲染是两套完全分开的系统,有人进入我们的大世界,大家还是共享同一个静态文件的底层世界,各自的画面只是不同视角的渲染结果。

VAST Project Eden 做的,就是把这套逻辑用生成式 AI 重写一遍。他们放弃了传统模型大一统的黑盒逻辑,设计了一套「状态与渲染原生解耦」的三层算法结构。

底层是结构化状态,管的是这个世界里有什么、发生了什么——场景几何、物体身份、事件逻辑,完全独立于任何相机视角。当玩家在世界模型里做出任何行为动作,系统首先更新的就是这套底层状态。

中间是转换层,它会根据「当前是谁在观察、从哪个视角观察」,把世界状态转换成一组局部条件信息。像是做了这个动作之后,这个视角下能看到哪些物体、它们的大致空间关系、当前发生了哪些事件变化等。

上层才是生成式渲染,基于这些条件,把画面真正「画」出来,补足光照、材质、动态细节。

这么一分拆,视频模型的职责就只剩一件事: 当一个高质量的渲染器 。它不用记住整个世界,也不用猜某个物体还在不在,那些都交给底层状态。它擅长的本来就是画得好看,现在让它专心画得好看就行。

当世界模型开始维护一个持续存在的底层状态后,训练数据也跟着变了。

在 Project Eden 的定义里,真正适合训练世界模型的数据,得同时包含两层信息:底层的推演状态,和高质量的视觉画面。两层对不齐,就不算「原生数据」。

数据从哪来?

VAST 利用 Tripo 长期积累的 3D 基础模型能力,对海量的互联网 2D 视频进行反向解构,恢复深度、相机位姿、几何轨迹等信息,重新还原背后的空间状态。

曹炎培直言,如果没有这套 3D 理解和生成能力,「我们可能都没法开始做世界模型」。

另一方面,从游戏引擎中找到物体坐标、碰撞关系、动作输入等合成数据,形成「状态-结果」的完全对应数据,模型便能学到,一个动作发生之后,世界状态会如何演化。

互联网视频负责泛化和广度,引擎数据负责精准和控制,缺了哪一头都不成立。

这或许是未来的 AI 世界

当世界状态成为一个持续存在的独立系统后,这种架构层面的差异,在能力层面直接体现出来。

最明显的变化就是环境持久化。用户在 Project Eden 里进入一个场景,往前走或是做出其他动作,都是在原有的场景上进行活动。底层状态一直在那里,从没消失过,不需要从历史帧重建。

这件事听起来平淡,对视频生成路线却是一道至今难以迈过的坎。

多人共享同一个世界,也是同样的道理。两个玩家进入同一个底层状态,玩家 A 推动箱子到达了点位,玩家 B 看到的也是同步的箱子位置。在这套解耦架构里,多个玩家共享的是同一个世界底座,状态只有一份,渲染各算各的。

主题:世界模型|状态