登录

刚刚,国产预训练具身大模型开源了,让后训练不再是必选项!


速读:大多数VLA模型的评测,都是在针对特定任务微调之后才进行的。 400k预训练步数的checkpoint在17个零样本任务中,4个任务的得分超过80分(满分100分):400k预训练checkpoint达到了及格分数的任务(零样本)。
2026年05月28日 12:3

编辑|panda、+0

2026 年初,国内具身智能赛道掀起了一波开源潮,越来越多团队开始公开自己的视觉-语言-动作(VLA)模型、数据集与训练框架。与此同时,行业竞争也逐渐集中到 benchmark 成绩、任务成功率以及跨任务泛化能力上,尤其是在标准化或已训练任务中的表现。

这股竞赛背后藏着一个行业里心照不宣的困境。大多数 VLA 模型的评测,都是在针对特定任务 微调 之后才进行的。说白了,就是先技术细节,而是关乎整条技术路线的根本问题:我们是在训练「通用机器人大脑」,还是在为每台机器人定制一套任务脚本?

就在这场关于泛化能力的追问中,自变量机器人(X Square Robot)选择了一种更直接的回答方式:直接把没有经过任何任务微调的预训练模型搬上真实机器人,在 17 个任务上公开测试。这个模型叫  Wall-OSS-0.5 。

项目链接 : https://x2robot.com/oss#resources

论文地址 : https://x2robot.com/api/files/file/wall_oss_05.pdf

代码仓库 : https://github.com/X-Square-Robot/wall-x

模型权重 :WALL-OSS-FLOW / WALL-OSS-FAST(Hugging Face)

要理解这项研究成果的意义,需要先知道机器人策略模型是怎么被训练出来的。

一个典型的 VLA 模型会先吸收大量的视觉和语言数据,形成对世界的基础认知,就像一个刚从大学毕业、学过很多理论的新人。但要让它真正上手操作,还需要针对具体岗位进行「在职培训」:给它看几百条这个任务的示范轨迹,让它学会「怎么拧螺丝」或者「怎么折叠毛巾」。

问题在于,这种「考前培训」模式让人很难判断:是大学课程( 预训练 )起了作用,还是培训班( 微调 )解决了问题?过去的多数论文都是在微调之后才汇报成绩,让预训练阶段的真实贡献始终藏在迷雾里。

Wall-OSS-0.5 提出的问题是:如果不允许微调,预训练的模型能干什么?

答案出乎意料地乐观。

预训练即可部署

Wall-OSS-0.5 是一个 VLA 模型,在超过 20 种机器人形态、每轮超过 100 万条轨迹的数据上完成预训练,同时混入了约 9000 万条多模态语料。

Wall-OSS-0.5 能力概览:涵盖预训练真实机器人行为、下游适配、仿真迁移及具身多模态理解。

自变量团队随后把这个完全没有任务特定微调的预训练 checkpoint,直接放到真实机器人上跑了 17 个任务,涵盖语义理解、刚性物体操作、柔性物体操作、精细操作和长程多步操作五大类别。

结果非常亮眼!400k 预训练步数的 checkpoint 在 17 个零样本任务中,4 个任务的得分超过 80 分(满分 100 分):

400k 预训练 checkpoint 达到了及格分数的任务(零样本)。 400k 预训练 checkpoint 达到了及格分数的任务(零样本)。 积木分拣(Block Sorting) :100 分(已见任务)

水果分拣(Fruit Sorting) :96 分(已见任务)

套环叠放(Ring Stacking) :86 分(已见任务)

绳子收紧(Rope Tightening) :82 分(未见任务,柔性操作)

需要特别注意的是「绳子收紧」这个任务。它是一个完全没有在预训练集中出现过的柔性物体任务,属于 17 个任务中最难的类型之一——不仅需要双臂协调,还要感知绳子的松紧状态并动态调整力度。

能以 82 分的成绩完成,是这次实验最有说服力的数据点之一: 模型不是「背过」这道题,而是真的迁移了某种可复用的操作能力。

从训练进度来看,这些能力并非一开始就有。随着预训练步数增加(从 50k 步到 400k 步),见过的任务平均得分从 26.1 升至 50.0,没见过的任务平均得分从 24.2 升至 53.6——两条曲线几乎并排上升。这意味着模型积累的能力确实在向新任务迁移,而不只是记住了训练分布里的任务样板。

不同的预训练 checkpoint 的零样本评估趋势。 论文称这种现象为能力的 阶梯式涌现(staircase emergence) :积木分拣从大约 50 分跳跃到 100 分,套环叠放从 73 分跳跃到 100 分,都发生在训练中后期的某个临界点。这像极了大语言模型中观察到的涌现现象。更重要的是,到 400k 步时,整体平均任务进度还在上升,尚未饱和,这意味着更长的预训练有望能带来更多提升。我们也期待进一步的研究为我们揭示具身智能预训练的 Scaling Law。

当然,零样本并非万能。毛巾折叠(10 分)、餐桌摆设(9 分)、充电器插接(9 分)这三个任务几乎无法完成,它们涉及柔性形变和精细对准,是对精度要求最高的类别,单靠预训练还远远不够。

不同预训练步数的 checkpoint 在不同已见和未见任务上的零样本表现。 不同预训练步数的 checkpoint 在不同已见和未见任务上的零样本表现。 这些任务清晰地描绘出当前能力边界: 一旦任务的「语义理解」成分占主导,预训练就能发挥;一旦涉及精度等更多要求,就需要微调来补足。

不仅学得快,还越动越聪明?

如果说零样本测试证明了 Wall-OSS-0.5 拥有「物理直觉」,那么在需要针对特定任务进行微调的场景下,它则展现出了作为基座模型的「先验优势」。

微调阶段的大幅领先

在包含 15 项真实机器人任务的微调评估中,Wall-OSS-0.5 展现了极高的学习效率与上限。对比行业标杆 π0.5,在同样的微调数据预算下,Wall-OSS-0.5 的平均任务进度达到了 60.5,不仅领先前者 17.5 分,更是在涵盖抽屉整理、碗中放勺等 10 项核心操作任务的子集上,将领先优势扩大到了 26 个百分点。

这种优势在主流仿真基准测试中同样表现稳健:

高难度操作 :在 RoboCasa 厨房模拟环境的精密插入(Insertion)任务中,Wall-OSS-0.5 的成功率达到了 39.6%,而 π0.5 仅为 4.0%,在强约束任务的处理上实现了近乎一个数量级的提升。

在 RoboCasa 厨房操控任务中的分项对比。Wall-OSS-0.5 在 articulated(关节)及 insertion(插入)等精细操控任务中优势极为明显。

适配效率 :在 LIBERO 单臂操控基准上,Wall-OSS-0.5 仅需 20k 步微调即达到 97.5% 的平均成功率,不仅成绩超越了 π0.5 经过 30k 步训练的成绩,更直接节省了约三分之一的算力与适配时间。

场景鲁棒性 :在包含 50 个双臂协作任务的 RoboTwin 平台中,面对充满光照与背景干扰的随机化场景,Wall-OSS-0.5 依然保持了 80.9% 的高成功率,展现出极强的域外泛化能力。

动作训练还能倒逼感知能力进化

在以往的具身智能研发中,让模型「肢体发达」(学会操作)往往伴随着「头脑简单」(视觉-语言理解能力退化)的代价。但 Wall-OSS-0.5 在接受高强度的动作训练后,其基础图文理解能力不仅没有崩坏,反而迎来了对机器人至关重要的「能力重塑」。

测试显示,该模型在具身视觉定位任务上的能力暴涨了 21.8 分,在 Placement reasoning(放置推理)任务中提升了 11.0 分。这标志着模型并没有因为学习动作而变成一个只会输出坐标的「盲目机器」,而是主动将自身庞大的通用视觉算力,倾斜到了「寻找目标、判断方位、推理落点」这些操控任务最急需的感知能力上。

多模态感知能力的「能力重塑」。通过协同训练,模型将通用视觉算力转化为机器人更急需的具身感知能力,在 Grounding 和 Where2Place 等任务上表现出显著的性能跃迁。

这种「鱼与熊掌兼得」的特性,证明了其协同训练方案不仅有效,而且在物理世界的感知与操作之间建立了一种良性的互补关系。

Wall-OSS-0.5 为什么这么强?

从结果来看,Wall-OSS-0.5 着实相当强,甚至可以说有点反常:一个从未见过这些任务的预训练模型,零样本就能完成柔性双臂操作;微调后更是在多个任务上将 π0.5 甩开 30 个百分点以上。这种级别的领先,不像是某个超参数调得更好的结果,而更像是底层训练逻辑上的系统性差异。

那么,它到底做对了什么?

答案其实隐藏在一个被很多人忽视的差异中:大语言模型输出文本是「一截一截」的离散状态,而机器人的物理动作必须是「丝滑连贯」的连续曲线。如果把动作直接以连续信号灌入主干,这股信号对习惯了文字接龙的 VLM 来说太微弱,根本无法撼动其底层认知。论文数据也印证了这一点:训练稳定后,流匹配损失对主干的梯度贡献仅剩约 5%。

换句话说,要想让连续动作直接「教会」主干大脑,几乎是徒劳的。自变量团队的解法是:既然连续信号太弱,那就借道离散,把梯度强行送进去。以下四项设计,共同支撑起这套「用离散路径传梯度、用连续路径做执行」的训练框架。

梯度桥接:让动作反向塑造主干大脑

当前主流的 VLA 训练大多采取「分层隔离」策略:先用海量视觉-语言数据预训练主干,再在其顶部挂一个动作专家单独训练。这种做法虽然安全,但代价是主干模型本身永远学不会「动作」,它只是在为动作专家提供特征,并不真正理解物理世界的可操作结构。

Wall-OSS-0.5 的方法 是 : 梯度桥接协同训练。 团队将动作离散化为特殊的「字符 Token」,与文本 Token 拼接到同一条自回归序列中,用大模型最原生、最强烈的交叉熵损失进行训练。

这一支路就像在 VLM 大脑中架起了一座「梯度桥」,强迫主干在预训练阶段就把「看、说、动」统一在同一套表征空间里。同时,模型保留流匹配损失用于生成连续动作,并辅以多模态交叉熵损失作为锚点防止视觉语言能力退化。三路信号协同开火,消融实验证明:一旦砍掉这座「桥」,真实机器人任务成功率会出现断崖式下降。

主题:预训练|任务|Wall-OSS-0.5|//x2robot