不再只是「会走路的双臂平台」：OpenHLM解放人形机器人的全身移动操作能力

速读：不再只是「会走路的双臂平台」：OpenHLM解放人形机器人的全身移动操作能力2026年06月28日09:30机器之心Pro策略驱动（非遥操）：走到平台前，下蹲捡起瓶子，走到垃圾桶并踩住踏板，把瓶子扔进垃圾桶并返回。清华大学交叉信息研究院的最新成果OpenHLM就这一问题提出了一套面向人形机器人全身移动操作的开源VLA配方。

2026年06月28日 09:3

策略驱动（非遥操）：走到平台前，下蹲捡起瓶子，走到垃圾桶并踩住踏板，把瓶子扔进垃圾桶并返回。训练仅使用了 20 条同一室外场景下的示范数据。

人类在日常生活中协调全身来完成移动操作任务：打开垃圾桶时会踩下踏板，从低处拿东西时需要下蹲，推车时需要同步协调手臂抓握和腿部移动。对试图复刻人类能力的人形机器人来说，身体不应只是「手臂 + 移动平台」，而应是一个能协调手、腰、腿、脚共同完成任务的运动整体。

那么在 VLA （Vision-Language-Action Model）能力突飞猛进的当下，如何构建一个高效的视觉 - 语言 - 动作学习系统，让人形机器人在语言和视觉输入下，像人类一样协调全身完成移动操作任务（ Loco-Manipulation Tasks）？

清华大学交叉信息研究院的最新成果 OpenHLM 就这一问题提出了一套面向人形机器人全身移动操作的开源 VLA 配方。

论文标题：OpenHLM: An Empirical Recipe for Whole-Body Humanoid Loco-Manipulation

论文链接：https://arxiv.org/abs/2606.22174

项目主页：https://openhlm-project.github.io/

一套真正适用于广泛移动操作任务的人形机器人系统，应该满足哪些基本条件？作者提出了三点：

系统应该真正面向全身。人形机器人的 VLA 策略不该把下半身只当成移动底座，而要能把手臂、腰、膝盖、脚都调动起来 —— 下蹲捡起低处的东西、用脚踩踏板这类动作，都应进入机器人支持的能力范围。

能被语言驱动。用户换一条指令，机器人应该就能用同一个模型完成不同任务，而不需要为每个任务单独训练模型并且在使用时频繁切换。

能用低成本数据扩展。全身遥操作数据质量高，但采集贵、重置耗时，也难覆盖所有新物体和新场景。一个可扩展的系统，应该能利用更便宜的数据来源 —— 比如原地站定遥操作，或无需真实机器人参与的 HuMI（人形机器人版本的 UMI），让能力扩展不必处处依赖昂贵的全流程全身遥操作。

围绕这三点要求，OpenHLM 通过三个阶段的系统性实验，一步步敲定全身 VLA 的关键设计。

主题：人形机器人