T-PAMI|中国科大、合工大等提出CAPER++:让关节物体位姿感知真正迈向「又快又稳」
在具身智能快速发展的今天,机器人已经不再满足于「看见」刚体物体,而是开始真正走向复杂环境中的交互与操作。从机械臂开柜门,到服务机器人整理抽屉,再到工业场景中的工具操作,大量真实世界目标都属于关节物体(Articulated Objects)。
对于具身智能系统而言,如何准确理解这些物体的空间姿态与运动状态,一直是迈向真实场景交互的关键难题。
然而,相比传统刚体, 关节物体的位姿感知一直是一个更加困难的问题。 这是因为,关节物体不仅存在多部件结构,还伴随着复杂的运动约束关系。不同部件之间并不是彼此独立,而是受到旋转关节、滑动关节等运动学结构的强约束。一旦遮挡、快速运动或观测残缺出现,传统方法就容易产生不符合物理规律的预测结果。
近年来,类级别关节物体位姿估计逐渐成为热点方向,却存在一个长期未被真正解决的问题:
如何同时兼顾「鲁棒性」与「实时性」?
一类方法依赖复杂后处理与优化过程,虽然精度较高,但 速度难以满足实时需求; 另一类方法强调端到端效率,却往往忽略运动学约束,在复杂场景下容易出现姿态抖动、结构不一致甚至长期跟踪漂移,即不稳定预测。
针对这一问题,来自 中国科学技术大学、合肥工业大学等机构的研究团队 提出了 CAPER++: 一个兼具高 鲁棒性、高效率与实时追踪能力 的统一关节物体位姿感知框架。该工作已被《IEEE Transactions on Pattern Analysis and Machine Intelligence》(TPAMI)接收。
CAPER++ 是一个端到端的 一体化关节物感知方案: 可自由切换到关节物体的 静态位姿估计 和 动态位姿追踪。 目前代码已开源,欢迎学术界和工业界试用。
论文标题: Probing Effective and Efficient Category-Level Articulated Object Pose Perception
论文链接:https://ieeexplore.ieee.org/abstract/document/11480457
项目主页:https://sites.google.com/view/caperplusplus
仓库链接:https://github.com/zanly20/CAPERPlusPlus
引言
过去几年,机器人领域正在经历一个明显变化:研究重点开始从「识别物体」逐渐转向「理解物体如何运动」。对于真实世界中的机器人而言,仅仅知道一个物体「是什么」已经远远不够。机器人还需要理解它「如何被打开」「如何被推动」「哪些部分可以运动」,以及不同部件之间存在怎样的运动约束关系。
与传统刚体不同,关节物体往往由多个部件构成,并通过旋转关节或滑动关节连接。例如柜门会绕铰链旋转,抽屉会沿轨道滑动,机械臂不同连杆之间也存在复杂耦合关系。这意味着,机器人不仅需要感知物体整体姿态,还必须同时推理不同部件之间的相对运动状态。
然而,这一任务远比想象中困难。一方面,真实场景中普遍存在遮挡、快速运动以及残缺观测问题;另一方面,关节结构天然具有严格的运动学约束,而现有方法大多采用独立的 part-wise 建模策略,将各个部件分别预测后再进行组合。这种方式虽然直观,却容易忽略部件之间的关联关系,导致预测结果不稳定,甚至出现不符合物理规律的姿态结构。
更关键的是,许多高精度方法仍然依赖复杂优化或后处理过程。这类方法虽然能够提升估计精度,但推理效率往往难以满足真实机器人系统对于实时性的要求。
在 CAPER++ 这篇论文中,与传统「零件独立预测」的思路不同,CAPER++ 首次从「关节驱动」的视角重新建模关节物体。论文提出了一种 Joint-Centric(关节中心) 层次化建模策略, 将物体划分为 Root Part 与 Constrained Part,并显式引入 运动学约束 ,使网络能够学习更加符合物理规律的位姿结构。
更进一步,CAPER++ 将位姿学习过程从传统欧式空间拓展至 SE (3) 流形切空间, 通过 Lie Algebra 建模旋转与位姿增量,有效缓解了传统旋转回归中的奇异性、不稳定优化以及几何约束破坏等问题。在保证高精度的同时,实现了 无需后处理的端到端推理。
而在动态追踪场景中,CAPER++ 进一步提出 Proxy Canonicalization 与动态关键帧机制, 将连续视频中的位姿追踪转化为相邻帧之间的增量学习问题, 大幅降低长期漂移与时序抖动,使系统在复杂动态环境中依然保持稳定预测。实验结果显示,CAPER++ 不仅在多个合成、半真实与真实世界数据集上取得了当前最优性能,还实现了 50 FPS 实时推理速度,真正兼顾了「精度」「鲁棒性」与「实时性」三项长期难以统一的目标。
不再「零件各管各的」:
CAPER++ 如何重新理解关节物体?
现有大量关节物体位姿估计方法,本质上都遵循一种典型思路:先将物体拆分成多个部件(Part),再分别预测每个部件的位姿,最后进行组合恢复。
这种 Part-wise 建模方式虽然直观,却存在一个长期被忽略的问题:
现实世界中的关节物体,本来就不是「彼此独立」的。
例如柜门的运动一定围绕铰链展开,抽屉只能沿滑轨方向移动,机械臂不同连杆之间也始终受到运动链约束。换句话说,部件之间天然存在强耦合关系。但传统方法往往将这些部件视作相互独立的刚体进行预测,导致模型虽然「看到了局部」,却无法真正理解整体运动结构。
这也是为什么,在遮挡、残缺观测或者复杂运动场景下,传统方法容易出现结构不一致、姿态漂移甚至违反物理规律的预测结果。
针对这一问题,CAPER++ 提出了 Joint-Centric(关节中心) 层次化建模策略, 从「关节」而非「部件」视角重新定义关节物体位姿感知。
论文将整个关节物体划分为 Root Part 与 Constrained Part 两类结构。其中,Root Part 作为运动参考主体,负责建立整体空间坐标;而其余可运动部件,则不再被独立回归完整 6D 位姿,而是通过关节参数与运动状态进行约束恢复。