不再只是「会走路的双臂平台」:OpenHLM解放人形机器人的全身移动操作能力
策略驱动(非遥操):走到平台前,下蹲捡起瓶子,走到垃圾桶并踩住踏板,把瓶子扔进垃圾桶并返回。训练仅使用了 20 条同一室外场景下的示范数据。
人类在日常生活中协调全身来完成移动操作任务:打开垃圾桶时会踩下踏板,从低处拿东西时需要下蹲,推车时需要同步协调手臂抓握和腿部移动。对试图复刻人类能力的人形机器人来说,身体不应只是「手臂 + 移动平台」,而应是一个能协调手、腰、腿、脚共同完成任务的运动整体。
那么在 VLA (Vision-Language-Action Model) 能力突飞猛进的当下, 如何构建一个 高效的视觉 - 语言 - 动作学习系统,让人形机器人在语言和视觉输入下,像人类一样协调全身完成移动操作任务( Loco-Manipulation Tasks)?
清华大学交叉信息研究院的最新成果 OpenHLM 就这一问题提出了一套面向人形机器人全身移动操作的开源 VLA 配方。
论文标题:OpenHLM: An Empirical Recipe for Whole-Body Humanoid Loco-Manipulation
论文链接:https://arxiv.org/abs/2606.22174
项目主页:https://openhlm-project.github.io/
一套真正适用于广泛移动操作任务的人形机器人系统,应该满足哪些基本条件?作者提出了三点:
系统应该真正面向全身 。 人形机器人的 VLA 策略不该把下半身只当成移动底座,而要能把手臂、腰、膝盖、脚都调动起来 —— 下蹲捡起低处的东西、用脚踩踏板这类动作,都应进入机器人支持的能力范围。
能被语言驱动 。 用户换一条指令,机器人应该就能用同一个模型完成不同任务,而不需要为每个任务单独训练模型并且在使用时频繁切换。
能用低成本数据扩展 。 全身遥操作数据质量高,但采集贵、重置耗时,也难覆盖所有新物体和新场景。一个可扩展的系统,应该能利用更便宜的数据来源 —— 比如原地站定遥操作,或无需真实机器人参与的 HuMI(人形机器人版本的 UMI),让能力扩展不必处处依赖昂贵的全流程全身遥操作。
围绕这三点要求,OpenHLM 通过三个阶段的系统性实验,一步步敲定全身 VLA 的关键设计。
主题:人形机器人