UT Austin朱玉可：人形机器人的数据困局怎么破？答案藏在「数据海绵」里｜ICRA 2026|罗素姆的万能机器人

速读：UTAustin朱玉可：人形机器人的数据困局怎么破？ 2026年06月04日15:08雷锋网2026年6月3日，在ICRA2026大会的主题演讲环节，德克萨斯大学奥斯汀分校副教授、NVIDIAGEAR团队负责人朱玉可（YukeZhu）发表了关于人形机器人基础模型的最新演讲。朱玉可指出，人形机器人正在进入一个全新的加速阶段：硬件日益成熟，学习算法和基础模型的规模化也在快速推进。我今天要讲的是人形机器人和基础模型。先给一个总结：我认为我们正在进入人形机器人技术的一个全新时代。

UT Austin朱玉可：人形机器人的数据困局怎么破？答案藏在「数据海绵」里｜ICRA 2026

2026年06月04日 15:08

2026年6月3日，在ICRA 2026大会的主题演讲环节，德克萨斯大学奥斯汀分校副教授、NVIDIA GEAR团队负责人朱玉可（Yuke Zhu）发表了关于人形机器人基础模型的最新演讲。他在演讲中系统性地拆解了当前人形机器人面临的最大瓶颈——数据，并提出了以“数据金字塔”为框架、以“世界模型”为引擎的规模化路径。

朱玉可指出，人形机器人正在进入一个全新的加速阶段：硬件日益成熟，学习算法和基础模型的规模化也在快速推进。但真正制约这一领域从Demo走向大规模部署的，仍然是数据。真实机器人数据质量最高但极其稀缺，仿真数据可以无限生成但存在仿真到真实的鸿沟。

为此，他提出了一个三层数据金字塔策略：底层是海量但被动的互联网人类视频数据，中层是可无限生成的合成数据，顶层是真实机器人数据。

他的核心观点是：不应押注单一数据源，而应以异质方式汇集三种数据，同时让世界模型扮演“数据海绵”的角色，吸收并整合所有类型的数据。

在具体实践中，朱玉可展示了两个典型案例：一是SONIC——利用大规模人类动作捕捉数据训练人形机器人全身控制器，通过运动跟踪目标大幅简化了强化学习的奖励函数设计，实现万小时级别的规模化训练；二是EgoScale——从第一人称视角的人类视频中学习，通过“预训练获取人类知识→对齐训练压缩知识→后训练表达知识”的三阶段方案，使得机器人仅需不到1%的真实机器人数据就能完成复杂操作任务。

整场演讲最令人振奋的结论，来自DreamZero世界动作（World Action Model，WAM）模型：通过将视频生成模型转化为动作生成器，纯AI生成的虚拟轨迹在训练价值上几乎100%等效于真实物理数据。

朱玉可最后强调，要推动整个领域前进，开源和开放是不可或缺的。NVIDIA已开源GR00T基础模型、Isaac仿真框架及相关数据集，并刚刚发布了首个 H 2 Plus参考平台。

以下是朱玉可在ICRA 2026大会发表的演讲精编稿，雷峰网 (公众号：雷峰网) 基于原英文演讲内容进行了不改原意的翻译编辑：

人形机器人正在进入新时代

我今天要讲的是人形机器人和基础模型。先给一个总结：我认为我们正在进入人形机器人技术的一个全新时代。硬件越来越强大，学习算法、基础模型的规模化也越来越可行。

但我必须说，最大的挑战、或许同时也是最大的机遇，仍然摆在我们面前。

“打造自主的、类人的机器人”这个梦想，已经让人类着迷了数百年。机器人这个词最早出自1920年卡雷尔·恰佩克的戏剧，名字就叫《罗素姆的万能机器人》。从一开始，人们就把机器人想象成类人的通用工作者，而不是为特定用途定制的机器。

回顾人形机器人的发展历程，我们看到一波又一波的炒作周期：从七八十年代论证技术可行性的概念验证系统，到那些最终没有实现大规模商业成功的愿景原型，再到社交伴侣机器人。大约十年前，DARPA机器人挑战赛给我们泼了一盆冷水，清楚揭示了即使在人类监督下，让机器人进入实际使用有多么困难。直到现在，没有任何一款人形机器人实现了大规模、快速的部署。