T-PAMI｜中国科大、合工大等提出CAPER++：让关节物体位姿感知真正迈向「又快又稳」

速读：一旦遮挡、快速运动或观测残缺出现，传统方法就容易产生不符合物理规律的预测结果。论文提出了一种Joint-Centric（关节中心）层次化建模策略，将物体划分为RootPart与ConstrainedPart，并显式引入运动学约束，使网络能够学习更加符合物理规律的位姿结构。在具身智能快速发展的今天，机器人已经不再满足于「看见」刚体物体，而是开始真正走向复杂环境中的交互与操作。

2026年05月26日 17:0

在具身智能快速发展的今天，机器人已经不再满足于「看见」刚体物体，而是开始真正走向复杂环境中的交互与操作。从机械臂开柜门，到服务机器人整理抽屉，再到工业场景中的工具操作，大量真实世界目标都属于关节物体（Articulated Objects）。

对于具身智能系统而言，如何准确理解这些物体的空间姿态与运动状态，一直是迈向真实场景交互的关键难题。

然而，相比传统刚体，关节物体的位姿感知一直是一个更加困难的问题。这是因为，关节物体不仅存在多部件结构，还伴随着复杂的运动约束关系。不同部件之间并不是彼此独立，而是受到旋转关节、滑动关节等运动学结构的强约束。一旦遮挡、快速运动或观测残缺出现，传统方法就容易产生不符合物理规律的预测结果。

近年来，类级别关节物体位姿估计逐渐成为热点方向，却存在一个长期未被真正解决的问题：

如何同时兼顾「鲁棒性」与「实时性」？

一类方法依赖复杂后处理与优化过程，虽然精度较高，但速度难以满足实时需求；另一类方法强调端到端效率，却往往忽略运动学约束，在复杂场景下容易出现姿态抖动、结构不一致甚至长期跟踪漂移，即不稳定预测。

针对这一问题，来自中国科学技术大学、合肥工业大学等机构的研究团队提出了 CAPER++：一个兼具高鲁棒性、高效率与实时追踪能力的统一关节物体位姿感知框架。该工作已被《IEEE Transactions on Pattern Analysis and Machine Intelligence》（TPAMI）接收。

CAPER++ 是一个端到端的一体化关节物感知方案：可自由切换到关节物体的静态位姿估计和动态位姿追踪。目前代码已开源，欢迎学术界和工业界试用。

论文标题： Probing Effective and Efficient Category-Level Articulated Object Pose Perception

论文链接：https://ieeexplore.ieee.org/abstract/document/11480457

项目主页：https://sites.google.com/view/caperplusplus

仓库链接：https://github.com/zanly20/CAPERPlusPlus

引言

过去几年，机器人领域正在经历一个明显变化：研究重点开始从「识别物体」逐渐转向「理解物体如何运动」。对于真实世界中的机器人而言，仅仅知道一个物体「是什么」已经远远不够。机器人还需要理解它「如何被打开」「如何被推动」「哪些部分可以运动」，以及不同部件之间存在怎样的运动约束关系。

与传统刚体不同，关节物体往往由多个部件构成，并通过旋转关节或滑动关节连接。例如柜门会绕铰链旋转，抽屉会沿轨道滑动，机械臂不同连杆之间也存在复杂耦合关系。这意味着，机器人不仅需要感知物体整体姿态，还必须同时推理不同部件之间的相对运动状态。

然而，这一任务远比想象中困难。一方面，真实场景中普遍存在遮挡、快速运动以及残缺观测问题；另一方面，关节结构天然具有严格的运动学约束，而现有方法大多采用独立的 part-wise 建模策略，将各个部件分别预测后再进行组合。这种方式虽然直观，却容易忽略部件之间的关联关系，导致预测结果不稳定，甚至出现不符合物理规律的姿态结构。

更关键的是，许多高精度方法仍然依赖复杂优化或后处理过程。这类方法虽然能够提升估计精度，但推理效率往往难以满足真实机器人系统对于实时性的要求。

在 CAPER++ 这篇论文中，与传统「零件独立预测」的思路不同，CAPER++ 首次从「关节驱动」的视角重新建模关节物体。论文提出了一种 Joint-Centric（关节中心）层次化建模策略，将物体划分为 Root Part 与 Constrained Part，并显式引入运动学约束，使网络能够学习更加符合物理规律的位姿结构。

更进一步，CAPER++ 将位姿学习过程从传统欧式空间拓展至 SE (3) 流形切空间，通过 Lie Algebra 建模旋转与位姿增量，有效缓解了传统旋转回归中的奇异性、不稳定优化以及几何约束破坏等问题。在保证高精度的同时，实现了无需后处理的端到端推理。

而在动态追踪场景中，CAPER++ 进一步提出 Proxy Canonicalization 与动态关键帧机制，将连续视频中的位姿追踪转化为相邻帧之间的增量学习问题，大幅降低长期漂移与时序抖动，使系统在复杂动态环境中依然保持稳定预测。实验结果显示，CAPER++ 不仅在多个合成、半真实与真实世界数据集上取得了当前最优性能，还实现了 50 FPS 实时推理速度，真正兼顾了「精度」「鲁棒性」与「实时性」三项长期难以统一的目标。

不再「零件各管各的」：

CAPER++ 如何重新理解关节物体？

现有大量关节物体位姿估计方法，本质上都遵循一种典型思路：先将物体拆分成多个部件（Part），再分别预测每个部件的位姿，最后进行组合恢复。

这种 Part-wise 建模方式虽然直观，却存在一个长期被忽略的问题：

现实世界中的关节物体，本来就不是「彼此独立」的。

例如柜门的运动一定围绕铰链展开，抽屉只能沿滑轨方向移动，机械臂不同连杆之间也始终受到运动链约束。换句话说，部件之间天然存在强耦合关系。但传统方法往往将这些部件视作相互独立的刚体进行预测，导致模型虽然「看到了局部」，却无法真正理解整体运动结构。

这也是为什么，在遮挡、残缺观测或者复杂运动场景下，传统方法容易出现结构不一致、姿态漂移甚至违反物理规律的预测结果。

针对这一问题，CAPER++ 提出了 Joint-Centric（关节中心）层次化建模策略，从「关节」而非「部件」视角重新定义关节物体位姿感知。

论文将整个关节物体划分为 Root Part 与 Constrained Part 两类结构。其中，Root Part 作为运动参考主体，负责建立整体空间坐标；而其余可运动部件，则不再被独立回归完整 6D 位姿，而是通过关节参数与运动状态进行约束恢复。

主题：关节物体|机器人|CAPER++|运动约束关系