登录

π0.7来了!涌现出组合泛化、跨本体迁移能力,VLA又行了?


速读:PhysicalIntelligence提到了一个空气炸锅的例子。 更有趣的是,经过几次这样的语言辅导后,研究人员可以微调一个高层策略,让模型完全自主地生成这些语言子目标,从而独立完成整个空气炸锅任务。 研究人员的推测是,它很可能来自机器人操作数据和大规模视觉语言预训练的共同作用。 这是组合泛化能力的生动体现。 结果是,无论是叠衣服、做咖啡还是折盒子,π0.7的成功率和速度都达到了之前专门训练的Recap专家模型水平,有时甚至更好。
2026年04月17日 18:04

在 Generalist AI 发布 Gen-1 两周之后,具身赛道的另一位重量级玩家 ——Physical Intelligence 也亮剑了,发布了新模型 π 0.7,VLA 又往前走了一步。

这个模型的重大突破在于 —— 它不只是重复训练中遇到的任务,而是展现出了 组合泛化的初步迹象 。什么叫组合泛化?举个例子,你会切菜、会打开燃气、会翻炒,当你想吃番茄炒蛋时,虽然你从来没有做过,但只要看一眼菜谱,你也能把这些技能组合起来,把菜做出来。现在的大语言模型之所以那么强大,本质上也是因为具备这种能力。

但在机器人领域,这种能力还没有大规模涌现。比如现在广泛使用的 VLA(视觉 - 语言 - 动作)模型,虽然能听懂各种指令和概念,但它们还不会把学过的技能灵活组合起来用。你给它一个新工具或者没见过的厨房用具,它就不知道怎么用了。而且,就算是它学过的技能,通常也得专门再「调教」一下,效果才会好。这跟早期那些语言模型很像,处理不同的问题也得单独做微调。

π (0.7) 看起来不一样。Physical Intelligence 提到了一个空气炸锅的例子。他们从未让 π0.7 学习过「用空气炸锅烤红薯」这个具体任务。但是,当通过分步的语言指令(就像指导一个第一次使用空气炸锅的人那样)来「辅导」它时,这个模型能够理解并执行。它需要将「关闭炸篮」、「放置食物」等从不同数据片段中学到的概念组合起来,应用到一个全新的、完整的任务流程中。

更有趣的是,经过几次这样的语言辅导后,研究人员可以微调一个高层策略,让模型完全自主地生成这些语言子目标,从而独立完成整个空气炸锅任务。这说明 π0.7 能够将观察到的、零散的行为片段组合起来,形成全新的、连贯的行为序列,这就像大型语言模型组合文本片段一样。

研究人员自己也很好奇,π0.7 到底是从哪里学会「空气炸锅」这个概念的。毕竟,训练数据里并没有直接演示「用空气炸锅烤红薯」的完整过程。由于训练集的规模很大且非常多样,很难精确追踪到是哪几段数据赋予了模型这个知识。研究人员的推测是,它很可能 来自机器人操作数据和大规模视觉语言预训练的共同作用 。

他们花了不少力气去搜寻,最终找到了两段相关的家庭数据:一段是机器人关闭空气炸锅,标注为「把炸篮推进空气炸锅」;另一段是「把空气炸锅的炸篮放在台面最左边」。此外,他们还找到了开源 DROID 数据集中一台 Franka 机械臂的相关操作片段。有趣的是,这些片段看起来与 π0.7 在实际实验中用移动机器人执行空气炸锅任务时的行为差异很大。这说明 π0.7 并不是简单模仿某一段数据,而是像大型语言模型组合网络上不同文本片段那样,把这些看似不同的、零散的行为片段重新组合起来,泛化成一个全新的、连贯的「向空气炸锅装入红薯」的任务。他们认为。这是组合泛化能力的生动体现。

除了组合泛化, π0.7 在跨本体迁移方面的表现也非常亮眼 。

在一个叠衣服的例子中,π0.7 被要求控制一个它从未训练过的、形态差异很大的双臂机器人(UR5e 系统)来叠衣服。UR5e 系统由两台 UR5e 工业机械臂搭配 Robotiq 平行夹爪组成。这台机器人很难遥操作:机械臂很重,惯性很大,夹爪也相对不够精确。研究人员之前完全没有收集过这台机器人做叠衣服任务的任何数据。

他们让 π0.7 去控制这台机器人折叠衣物。出乎意料的是,它能够稳定地完成这一操作。值得注意的是,该机器人在折叠 T 恤时的物理动作,与他们最初采集训练数据所用的那台更小型机器人的动作存在显著差异。最终,π0.7 在该任务上的成功率,与经验丰富的遥操作员在同样使用双臂 UR5e 系统进行「零样本」操作时的成功率持平。这些操作员平均拥有 375 小时的遥操作经验,他们正是最初在原始机器人上采集训练数据的同一批专家。

除了广泛的任务泛化能力,研究团队还希望机器人干活又准又快。之前他们开发了一个叫 Recap 的算法,用强化学习专门优化特定任务的策略,让机器人动作更稳、速度更快。

以前的做法是为每个任务单独训练一个 Recap 专家模型。但现在他们换了个思路:把 Recap 训练过程中产生的经验连同策略元数据一起喂给 π0.7。

通过这种知识蒸馏,π0.7 这一个通用模型就学会了 Recap 优化的所有技巧。结果是,无论是叠衣服、做咖啡还是折盒子, π0.7 的成功率和速度都达到了之前专门训练的 Recap 专家模型水平,有时甚至更好 。

主题:组合泛化|研究人员