登录

X-Era Lab首席科学家王可泽:在500万次真实交互中,攀登物理AGI那座高峰


速读:这不是静态图片,也不是摆拍的数字标本,而是真实世界正在震颤的、带着因果链条的物理演化。 这种坚持,让它的世界动作模型成为当下少有的、可在真实场景中落地,并且实现迁移和泛化的物理模型。 这条道路没有捷径,也更加漫长,但只有从这一个个细碎而真实的场景中,才能长出真正意义上的物理AGI。 简单来说,这是一个物理基座模型,在给定动作前提和预测环境之后,能预测后面一系列的物理过程、动作以及各种反馈的通用模型。 所以我们当时觉得,应该专门打造一个真正以世界动作模型为内核的东西:从视觉、语言等多样的模态,到后面动作、物理的作用和状态的演化——从预测下一个Token,变成真的去预测下一个状态。
2026年06月22日 18:0

解决非常底层、

非常硬核问题的时代来了。

文 | 张果

2022年的一个普通午后,在无数人尚未觉察的角落,世界动作模型第一次悄然睁开了它的眼睛。

它第一次“看到”的,不是实验室里擦拭干净的理想场景,而是一个真实的、动态的无人货柜:玻璃门被推开合上,手在货架间进进出出,瓶罐被抓起、挪动、放回,偶尔磕碰出一连串细微的形变和晃动。

对它来说,真正要学会的不是“认出一瓶饮料叫雪碧”,而是从这些拥挤而嘈杂的细节里,理解这里面隐含的物理变化和规律——什么在动、为什么动、下一步可能会发生什么。

那一刻,对正盯着屏幕数据的X-Era Lab(拓元智慧)首席科学家王可泽来说是一个很明确的转折点。这不是静态图片,也不是摆拍的数字标本,而是真实世界正在震颤的、带着因果链条的物理演化。这一次,他们清晰地意识到,解决非常底层、非常硬核问题的时代,已经醒来了。

X-Era Lab从创业之初,就选择了一条少有人走的路径——做物理AGI的世界动作模型。简单来说,这是一个物理基座模型,在给定动作前提和预测环境之后,能预测后面一系列的物理过程、动作以及各种反馈的通用模型。在X-Era Lab发布世界动作模型基模训练范式半年后,英伟达发布了思路高度同源的DreamZero。

做世界模型在当下也已经是共识,没形成共识的是,到底要用怎样的数据去训练模型?X-Era Lab的答案是:它们一定来自于真实世界,哪怕这些数据显得不干净、不标准、充满噪音和长尾事件。

这种坚持,让它的世界动作模型成为当下少有的、可在真实场景中落地,并且实现迁移和泛化的物理模型。据36氪了解,X-Era Lab的模型已落地零售、工业等各个场景,准备赋能千行百业、不同形态的机器人。

当下,具身智能行业已经走入深水区,越来越多的人意识到,大脑成为制约具身智能实现通用的关键卡点。 和语言大模型不同,具身数据必须靠主动采集和设计场景获得,每一家公司都要找到自己的数据训练范式。

在这之中,有公司偏好拟真、有公司选择人力数采工厂,而X-Era Lab选择到生活中去,做“实现物理AGI的世界动作模型”。这条道路没有捷径,也更加漫长,但只有从这一个个细碎而真实的场景中,才能长出真正意义上的物理AGI。

当下细分赛道的机器人正在放量,就算搭载大脑的机器人只有千台,收入也能迈向数亿规模。当所有人在质疑世界模型落地遥不可及时,已经在海浪中搏击的玩家正在给出答案。

正在接受访谈的王可泽博士

具身智能的喧嚣里, X-Era Lab 是少数把三个闭环都跑通的公司:模型闭环,让世界动作模型在感知 — 预测 — 控制上自成一体;数据闭环,让真实业务每天把 4D 数据回流进模型;商业闭环,让算法直接变成收入,再反哺迭代。三环咬合成一只飞轮 —— 而这只飞轮上,它同时坐着两个“最”:世界模型算法收入最高, 4D 真实数据采集量最丰富。

以下是36氪和王可泽对谈,对话经过编辑:

通用物理基座模型,

到底是什么样的?

36氪:世界模型现在路线比较混乱,X-Era Lab是怎么梳理这件事的?你们又是怎么定义的?

王可泽: 我们一开始是尝试想清楚:在具身智能领域,最终的通用智能底座,它的终点是什么。发现现在底座的演进,变成了在大模型上不停地加外挂去适配各种场景。到了具身智能也是加外挂,但我个人感觉这不是真正的终局,它是以传统大模型为外衣套上一个壳子,很多时候停留在论文指标和仿真环境里,离工业界很远。

所以我们当时觉得,应该专门打造一个真正以世界动作模型为内核的东西:从视觉、语言等多样的模态,到后面动作、物理的作用和状态的演化——从预测下一个Token,变成真的去预测下一个状态。

36氪:具体来说,你们的模型是如何运作的?

王可泽: 我们把整个技术路线都转向世界动作模型,所有设计都从原生角度出发:在给定动作前提和预测环境之后,去预测后面一系列的物理过程、动作以及各种反馈。

这几年,我们随着应用边界让技术不停往前走:从最开始很单一的室内零售和移动抓取场景,到后面多形态的机器人、多种复杂环境,以及更强的泛化和可迁移性。

36氪:所以你们是怎么做这件事的?

王可泽: 我们不是一个从开始就在讲世界模型故事的团队,而是在各种真实场景里反复打磨,构建我们的世界动作模型。 随着舆论风口转变,我们内部也越来越确认:经过了压力还能长期坚持做出来的东西,才是真正的具身智能底座模型。

36氪:那你们到底怎么看待VLA?

王可泽:我们发现VLA有明显的局限性,VLA是一个重要的阶段性路线,适合快速验证和任务适配,但我们认为它不是物理AGI的终局。 去年我印象很深,几乎全行业都在讲VLA,尤其是做机器人本体的、融资路演的。

对我们来说,不是看不见这个趋势,而是我们认为VLA不是终局——你可以把它包装成一个有“世界”味道的系统,但并没有真正解决我们的问题。我们可能有一点技术洁癖, 别人顺的是舆论的风,我们顺的是技术的风——看着我们在逆风,其实风一直在我们这边。

36氪:你们为什么能如此笃定,自己走在正确的道路上?

王可泽:在这种噪音下,坚定选择一条难而正确的技术路线尤其难,因为很多团队需要融资,估值到了一定阶段,需要不断给出新的亮点、新的成果、新的Milestone。 在物理AGI这个赛道,模型的整体框架决定了上限,而数据和工程决定了你能走多快、多远。框架没选对,再多demo和花活也很难持续堆上去。 所以我们认为我们的春天来了: 解决非常底层、非常硬核问题的时代来了。

Demo是盖给别人看的外立面,而架构是埋在地下的地基;没人会为地基鼓掌,可一栋楼能立多高,全看它埋得有多深。

36氪:在做物理通用底座模型之中,最难的是哪一步?

王可泽: 卡得最久的还是策略这部分,也就是在真实的三维空间里学习交互策略,把物理、几何和动作做联合建模。让模型脑子里一开始就是真正物理几何的思维去看、去操作、去规划,这天然就难。所以我们卡点比较多,要不停试探,尤其要解决模型训练不收敛的问题。这倒不是学术理论的问题,而是真实训练过程中的问题。

在千卡级GPU集群上,我们完成了世界动作模型的通用预训练。以海量真实世界的4D时空点云为载体,3D点云、时间演化、交互轨迹三者合一,模型从几何、语义、姿态、动态四个维度,提取出通用的世界状态表征,并由此习得物理世界的运行规律。千卡集群带来的,不只是更大的数据吞吐,更是让模型在统一的4D+X表征中,把“看见世界”与“理解物理”真正合为一体—— 用最新的算力,去教机器一件最古老的事:世界是怎么运转的。

36氪:在你看来,目前你们团队做过的工作里,哪些算是比较有代表性、对行业认知带来一些改变的?

王可泽:我们最近做的,其实不是某一个孤立的工作,而是一条比较完整的技术线:围绕 原生世界动作模型 ,去更好地预测“下一秒物理世界会怎样”。

在这条线上,你会看到我们反复在做同一件事:用统一的物理几何Backbone来同时承载“世界状态”和“机器人动作”,尽量避免预训练目标和控制目标之间的错位。为什么要这么做?可以类比语言模型:对语言模型来说,预训练目标和使用目标高度一致——训练时预测下一个token,使用时也是生成token,所以只要持续把数据、模型、算力做大,语言能力就会比较稳定地往上走。

而在具身智能里,如果预训练阶段主要在做图像到语言、视频到视频,而控制阶段却要输出动作轨迹,中间其实是断了一层。我们的判断是:这层断档必须在预训练这一级“重新对齐”,所以我们设计了一系列原生世界动作模型的工作,让模型从一开始就学4D轨迹和物理后果,而不是事后再贴一个action头。

这条线里有不少具体成果,其中有一项近期拿到了2026 CVPR的奖项,评审的理由一方面是计算过程足够透明、可复现性强,另一方面也从侧面印证了我们这套“原生世界动作模型”的思路在真实物理场景中是跑通了的。

主题:模型|真实|X-EraLab|世界动作模型|物理AGI