X-Era Lab首席科学家王可泽：在500万次真实交互中，攀登物理AGI那座高峰

速读：这不是静态图片，也不是摆拍的数字标本，而是真实世界正在震颤的、带着因果链条的物理演化。这种坚持，让它的世界动作模型成为当下少有的、可在真实场景中落地，并且实现迁移和泛化的物理模型。这条道路没有捷径，也更加漫长，但只有从这一个个细碎而真实的场景中，才能长出真正意义上的物理AGI。简单来说，这是一个物理基座模型，在给定动作前提和预测环境之后，能预测后面一系列的物理过程、动作以及各种反馈的通用模型。所以我们当时觉得，应该专门打造一个真正以世界动作模型为内核的东西：从视觉、语言等多样的模态，到后面动作、物理的作用和状态的演化——从预测下一个Token，变成真的去预测下一个状态。

2026年06月22日 18:0

解决非常底层、

非常硬核问题的时代来了。

文｜张果

2022年的一个普通午后，在无数人尚未觉察的角落，世界动作模型第一次悄然睁开了它的眼睛。

它第一次“看到”的，不是实验室里擦拭干净的理想场景，而是一个真实的、动态的无人货柜：玻璃门被推开合上，手在货架间进进出出，瓶罐被抓起、挪动、放回，偶尔磕碰出一连串细微的形变和晃动。

对它来说，真正要学会的不是“认出一瓶饮料叫雪碧”，而是从这些拥挤而嘈杂的细节里，理解这里面隐含的物理变化和规律——什么在动、为什么动、下一步可能会发生什么。

那一刻，对正盯着屏幕数据的X-Era Lab（拓元智慧）首席科学家王可泽来说是一个很明确的转折点。这不是静态图片，也不是摆拍的数字标本，而是真实世界正在震颤的、带着因果链条的物理演化。这一次，他们清晰地意识到，解决非常底层、非常硬核问题的时代，已经醒来了。

X-Era Lab从创业之初，就选择了一条少有人走的路径——做物理AGI的世界动作模型。简单来说，这是一个物理基座模型，在给定动作前提和预测环境之后，能预测后面一系列的物理过程、动作以及各种反馈的通用模型。在X-Era Lab发布世界动作模型基模训练范式半年后，英伟达发布了思路高度同源的DreamZero。

做世界模型在当下也已经是共识，没形成共识的是，到底要用怎样的数据去训练模型？X-Era Lab的答案是：它们一定来自于真实世界，哪怕这些数据显得不干净、不标准、充满噪音和长尾事件。

这种坚持，让它的世界动作模型成为当下少有的、可在真实场景中落地，并且实现迁移和泛化的物理模型。据36氪了解，X-Era Lab的模型已落地零售、工业等各个场景，准备赋能千行百业、不同形态的机器人。

当下，具身智能行业已经走入深水区，越来越多的人意识到，大脑成为制约具身智能实现通用的关键卡点。和语言大模型不同，具身数据必须靠主动采集和设计场景获得，每一家公司都要找到自己的数据训练范式。

在这之中，有公司偏好拟真、有公司选择人力数采工厂，而X-Era Lab选择到生活中去，做“实现物理AGI的世界动作模型”。这条道路没有捷径，也更加漫长，但只有从这一个个细碎而真实的场景中，才能长出真正意义上的物理AGI。

当下细分赛道的机器人正在放量，就算搭载大脑的机器人只有千台，收入也能迈向数亿规模。当所有人在质疑世界模型落地遥不可及时，已经在海浪中搏击的玩家正在给出答案。

正在接受访谈的王可泽博士

具身智能的喧嚣里， X-Era Lab 是少数把三个闭环都跑通的公司：模型闭环，让世界动作模型在感知 — 预测 — 控制上自成一体；数据闭环，让真实业务每天把 4D 数据回流进模型；商业闭环，让算法直接变成收入，再反哺迭代。三环咬合成一只飞轮 —— 而这只飞轮上，它同时坐着两个“最”：世界模型算法收入最高， 4D 真实数据采集量最丰富。

以下是36氪和王可泽对谈，对话经过编辑：

通用物理基座模型，

到底是什么样的？

36氪：世界模型现在路线比较混乱，X-Era Lab是怎么梳理这件事的？你们又是怎么定义的？

王可泽：我们一开始是尝试想清楚：在具身智能领域，最终的通用智能底座，它的终点是什么。发现现在底座的演进，变成了在大模型上不停地加外挂去适配各种场景。到了具身智能也是加外挂，但我个人感觉这不是真正的终局，它是以传统大模型为外衣套上一个壳子，很多时候停留在论文指标和仿真环境里，离工业界很远。

所以我们当时觉得，应该专门打造一个真正以世界动作模型为内核的东西：从视觉、语言等多样的模态，到后面动作、物理的作用和状态的演化——从预测下一个Token，变成真的去预测下一个状态。

36氪：具体来说，你们的模型是如何运作的？

王可泽：我们把整个技术路线都转向世界动作模型，所有设计都从原生角度出发：在给定动作前提和预测环境之后，去预测后面一系列的物理过程、动作以及各种反馈。

这几年，我们随着应用边界让技术不停往前走：从最开始很单一的室内零售和移动抓取场景，到后面多形态的机器人、多种复杂环境，以及更强的泛化和可迁移性。

36氪：所以你们是怎么做这件事的？

王可泽：我们不是一个从开始就在讲世界模型故事的团队，而是在各种真实场景里反复打磨，构建我们的世界动作模型。随着舆论风口转变，我们内部也越来越确认：经过了压力还能长期坚持做出来的东西，才是真正的具身智能底座模型。

36氪：那你们到底怎么看待VLA？

王可泽：我们发现VLA有明显的局限性，VLA是一个重要的阶段性路线，适合快速验证和任务适配，但我们认为它不是物理AGI的终局。去年我印象很深，几乎全行业都在讲VLA，尤其是做机器人本体的、融资路演的。

对我们来说，不是看不见这个趋势，而是我们认为VLA不是终局——你可以把它包装成一个有“世界”味道的系统，但并没有真正解决我们的问题。我们可能有一点技术洁癖，别人顺的是舆论的风，我们顺的是技术的风——看着我们在逆风，其实风一直在我们这边。

36氪：你们为什么能如此笃定，自己走在正确的道路上？

王可泽：在这种噪音下，坚定选择一条难而正确的技术路线尤其难，因为很多团队需要融资，估值到了一定阶段，需要不断给出新的亮点、新的成果、新的Milestone。在物理AGI这个赛道，模型的整体框架决定了上限，而数据和工程决定了你能走多快、多远。框架没选对，再多demo和花活也很难持续堆上去。所以我们认为我们的春天来了：解决非常底层、非常硬核问题的时代来了。

Demo是盖给别人看的外立面，而架构是埋在地下的地基；没人会为地基鼓掌，可一栋楼能立多高，全看它埋得有多深。

36氪：在做物理通用底座模型之中，最难的是哪一步？

王可泽：卡得最久的还是策略这部分，也就是在真实的三维空间里学习交互策略，把物理、几何和动作做联合建模。让模型脑子里一开始就是真正物理几何的思维去看、去操作、去规划，这天然就难。所以我们卡点比较多，要不停试探，尤其要解决模型训练不收敛的问题。这倒不是学术理论的问题，而是真实训练过程中的问题。

在千卡级GPU集群上，我们完成了世界动作模型的通用预训练。以海量真实世界的4D时空点云为载体，3D点云、时间演化、交互轨迹三者合一，模型从几何、语义、姿态、动态四个维度，提取出通用的世界状态表征，并由此习得物理世界的运行规律。千卡集群带来的，不只是更大的数据吞吐，更是让模型在统一的4D+X表征中，把“看见世界”与“理解物理”真正合为一体—— 用最新的算力，去教机器一件最古老的事：世界是怎么运转的。

36氪：在你看来，目前你们团队做过的工作里，哪些算是比较有代表性、对行业认知带来一些改变的？

王可泽：我们最近做的，其实不是某一个孤立的工作，而是一条比较完整的技术线：围绕原生世界动作模型，去更好地预测“下一秒物理世界会怎样”。

在这条线上，你会看到我们反复在做同一件事：用统一的物理几何Backbone来同时承载“世界状态”和“机器人动作”，尽量避免预训练目标和控制目标之间的错位。为什么要这么做？可以类比语言模型：对语言模型来说，预训练目标和使用目标高度一致——训练时预测下一个token，使用时也是生成token，所以只要持续把数据、模型、算力做大，语言能力就会比较稳定地往上走。

而在具身智能里，如果预训练阶段主要在做图像到语言、视频到视频，而控制阶段却要输出动作轨迹，中间其实是断了一层。我们的判断是：这层断档必须在预训练这一级“重新对齐”，所以我们设计了一系列原生世界动作模型的工作，让模型从一开始就学4D轨迹和物理后果，而不是事后再贴一个action头。

这条线里有不少具体成果，其中有一项近期拿到了2026 CVPR的奖项，评审的理由一方面是计算过程足够透明、可复现性强，另一方面也从侧面印证了我们这套“原生世界动作模型”的思路在真实物理场景中是跑通了的。

主题：模型|真实|X-EraLab|世界动作模型|物理AGI