刚刚，国产预训练具身大模型开源了，让后训练不再是必选项！

速读：大多数VLA模型的评测，都是在针对特定任务微调之后才进行的。 400k预训练步数的checkpoint在17个零样本任务中，4个任务的得分超过80分（满分100分）：400k预训练checkpoint达到了及格分数的任务（零样本）。

2026年05月28日 12:3

编辑｜panda、+0

2026 年初，国内具身智能赛道掀起了一波开源潮，越来越多团队开始公开自己的视觉-语言-动作（VLA）模型、数据集与训练框架。与此同时，行业竞争也逐渐集中到 benchmark 成绩、任务成功率以及跨任务泛化能力上，尤其是在标准化或已训练任务中的表现。

这股竞赛背后藏着一个行业里心照不宣的困境。大多数 VLA 模型的评测，都是在针对特定任务微调之后才进行的。说白了，就是先技术细节，而是关乎整条技术路线的根本问题：我们是在训练「通用机器人大脑」，还是在为每台机器人定制一套任务脚本？

就在这场关于泛化能力的追问中，自变量机器人（X Square Robot）选择了一种更直接的回答方式：直接把没有经过任何任务微调的预训练模型搬上真实机器人，在 17 个任务上公开测试。这个模型叫 Wall-OSS-0.5 。

项目链接： https://x2robot.com/oss#resources

论文地址： https://x2robot.com/api/files/file/wall_oss_05.pdf

代码仓库： https://github.com/X-Square-Robot/wall-x

模型权重：WALL-OSS-FLOW / WALL-OSS-FAST（Hugging Face）

要理解这项研究成果的意义，需要先知道机器人策略模型是怎么被训练出来的。

一个典型的 VLA 模型会先吸收大量的视觉和语言数据，形成对世界的基础认知，就像一个刚从大学毕业、学过很多理论的新人。但要让它真正上手操作，还需要针对具体岗位进行「在职培训」：给它看几百条这个任务的示范轨迹，让它学会「怎么拧螺丝」或者「怎么折叠毛巾」。

问题在于，这种「考前培训」模式让人很难判断：是大学课程（预训练）起了作用，还是培训班（微调）解决了问题？过去的多数论文都是在微调之后才汇报成绩，让预训练阶段的真实贡献始终藏在迷雾里。

Wall-OSS-0.5 提出的问题是：如果不允许微调，预训练的模型能干什么？

答案出乎意料地乐观。

预训练即可部署

Wall-OSS-0.5 是一个 VLA 模型，在超过 20 种机器人形态、每轮超过 100 万条轨迹的数据上完成预训练，同时混入了约 9000 万条多模态语料。

Wall-OSS-0.5 能力概览：涵盖预训练真实机器人行为、下游适配、仿真迁移及具身多模态理解。

自变量团队随后把这个完全没有任务特定微调的预训练 checkpoint，直接放到真实机器人上跑了 17 个任务，涵盖语义理解、刚性物体操作、柔性物体操作、精细操作和长程多步操作五大类别。

结果非常亮眼！400k 预训练步数的 checkpoint 在 17 个零样本任务中，4 个任务的得分超过 80 分（满分 100 分）：

400k 预训练 checkpoint 达到了及格分数的任务（零样本）。积木分拣（Block Sorting）：100 分（已见任务）

水果分拣（Fruit Sorting）：96 分（已见任务）

套环叠放（Ring Stacking）：86 分（已见任务）

绳子收紧（Rope Tightening）：82 分（未见任务，柔性操作）

需要特别注意的是「绳子收紧」这个任务。它是一个完全没有在预训练集中出现过的柔性物体任务，属于 17 个任务中最难的类型之一——不仅需要双臂协调，还要感知绳子的松紧状态并动态调整力度。

能以 82 分的成绩完成，是这次实验最有说服力的数据点之一：模型不是「背过」这道题，而是真的迁移了某种可复用的操作能力。

从训练进度来看，这些能力并非一开始就有。随着预训练步数增加（从 50k 步到 400k 步），见过的任务平均得分从 26.1 升至 50.0，没见过的任务平均得分从 24.2 升至 53.6——两条曲线几乎并排上升。这意味着模型积累的能力确实在向新任务迁移，而不只是记住了训练分布里的任务样板。

不同的预训练 checkpoint 的零样本评估趋势。论文称这种现象为能力的阶梯式涌现（staircase emergence）：积木分拣从大约 50 分跳跃到 100 分，套环叠放从 73 分跳跃到 100 分，都发生在训练中后期的某个临界点。这像极了大语言模型中观察到的涌现现象。更重要的是，到 400k 步时，整体平均任务进度还在上升，尚未饱和，这意味着更长的预训练有望能带来更多提升。我们也期待进一步的研究为我们揭示具身智能预训练的 Scaling Law。

当然，零样本并非万能。毛巾折叠（10 分）、餐桌摆设（9 分）、充电器插接（9 分）这三个任务几乎无法完成，它们涉及柔性形变和精细对准，是对精度要求最高的类别，单靠预训练还远远不够。

不同预训练步数的 checkpoint 在不同已见和未见任务上的零样本表现。这些任务清晰地描绘出当前能力边界：一旦任务的「语义理解」成分占主导，预训练就能发挥；一旦涉及精度等更多要求，就需要微调来补足。

不仅学得快，还越动越聪明？

如果说零样本测试证明了 Wall-OSS-0.5 拥有「物理直觉」，那么在需要针对特定任务进行微调的场景下，它则展现出了作为基座模型的「先验优势」。

微调阶段的大幅领先

在包含 15 项真实机器人任务的微调评估中，Wall-OSS-0.5 展现了极高的学习效率与上限。对比行业标杆 π0.5，在同样的微调数据预算下，Wall-OSS-0.5 的平均任务进度达到了 60.5，不仅领先前者 17.5 分，更是在涵盖抽屉整理、碗中放勺等 10 项核心操作任务的子集上，将领先优势扩大到了 26 个百分点。

这种优势在主流仿真基准测试中同样表现稳健：

高难度操作：在 RoboCasa 厨房模拟环境的精密插入（Insertion）任务中，Wall-OSS-0.5 的成功率达到了 39.6%，而 π0.5 仅为 4.0%，在强约束任务的处理上实现了近乎一个数量级的提升。

在 RoboCasa 厨房操控任务中的分项对比。Wall-OSS-0.5 在 articulated（关节）及 insertion（插入）等精细操控任务中优势极为明显。

适配效率：在 LIBERO 单臂操控基准上，Wall-OSS-0.5 仅需 20k 步微调即达到 97.5% 的平均成功率，不仅成绩超越了 π0.5 经过 30k 步训练的成绩，更直接节省了约三分之一的算力与适配时间。

场景鲁棒性：在包含 50 个双臂协作任务的 RoboTwin 平台中，面对充满光照与背景干扰的随机化场景，Wall-OSS-0.5 依然保持了 80.9% 的高成功率，展现出极强的域外泛化能力。

动作训练还能倒逼感知能力进化

在以往的具身智能研发中，让模型「肢体发达」（学会操作）往往伴随着「头脑简单」（视觉-语言理解能力退化）的代价。但 Wall-OSS-0.5 在接受高强度的动作训练后，其基础图文理解能力不仅没有崩坏，反而迎来了对机器人至关重要的「能力重塑」。

测试显示，该模型在具身视觉定位任务上的能力暴涨了 21.8 分，在 Placement reasoning（放置推理）任务中提升了 11.0 分。这标志着模型并没有因为学习动作而变成一个只会输出坐标的「盲目机器」，而是主动将自身庞大的通用视觉算力，倾斜到了「寻找目标、判断方位、推理落点」这些操控任务最急需的感知能力上。

多模态感知能力的「能力重塑」。通过协同训练，模型将通用视觉算力转化为机器人更急需的具身感知能力，在 Grounding 和 Where2Place 等任务上表现出显著的性能跃迁。

这种「鱼与熊掌兼得」的特性，证明了其协同训练方案不仅有效，而且在物理世界的感知与操作之间建立了一种良性的互补关系。

Wall-OSS-0.5 为什么这么强？

从结果来看，Wall-OSS-0.5 着实相当强，甚至可以说有点反常：一个从未见过这些任务的预训练模型，零样本就能完成柔性双臂操作；微调后更是在多个任务上将 π0.5 甩开 30 个百分点以上。这种级别的领先，不像是某个超参数调得更好的结果，而更像是底层训练逻辑上的系统性差异。

那么，它到底做对了什么？

答案其实隐藏在一个被很多人忽视的差异中：大语言模型输出文本是「一截一截」的离散状态，而机器人的物理动作必须是「丝滑连贯」的连续曲线。如果把动作直接以连续信号灌入主干，这股信号对习惯了文字接龙的 VLM 来说太微弱，根本无法撼动其底层认知。论文数据也印证了这一点：训练稳定后，流匹配损失对主干的梯度贡献仅剩约 5%。

换句话说，要想让连续动作直接「教会」主干大脑，几乎是徒劳的。自变量团队的解法是：既然连续信号太弱，那就借道离散，把梯度强行送进去。以下四项设计，共同支撑起这套「用离散路径传梯度、用连续路径做执行」的训练框架。

梯度桥接：让动作反向塑造主干大脑

当前主流的 VLA 训练大多采取「分层隔离」策略：先用海量视觉-语言数据预训练主干，再在其顶部挂一个动作专家单独训练。这种做法虽然安全，但代价是主干模型本身永远学不会「动作」，它只是在为动作专家提供特征，并不真正理解物理世界的可操作结构。

Wall-OSS-0.5 的方法是：梯度桥接协同训练。团队将动作离散化为特殊的「字符 Token」，与文本 Token 拼接到同一条自回归序列中，用大模型最原生、最强烈的交叉熵损失进行训练。

这一支路就像在 VLM 大脑中架起了一座「梯度桥」，强迫主干在预训练阶段就把「看、说、动」统一在同一套表征空间里。同时，模型保留流匹配损失用于生成连续动作，并辅以多模态交叉熵损失作为锚点防止视觉语言能力退化。三路信号协同开火，消融实验证明：一旦砍掉这座「桥」，真实机器人任务成功率会出现断崖式下降。

主题：预训练|任务|Wall-OSS-0.5|//x2robot