二元成功率已经过时!PRM-as-a-Judge才是你需要的具身操作评测框架
随着机器人操作从短程、单步技能逐步走向长程、富接触、需要持续协调与恢复能力的复杂任务,传统以二元成功率为核心的评测方式开始暴露出明显局限。它能够回答 “任务是否完成”,却难以回答 “策略推进到了哪里”“执行过程是否高效稳定”“失败究竟发生在什么阶段”。
围绕这一问题,来自中国科学院自动化研究所、北京大学和智源研究院等机构的研究人员提出 PRM-as-a-Ju dg e :不再只根据终局结果评价策略,而是从轨迹视频中恢复任务相关的连续进度信号,并据此对执行过程进行细粒度审计。该框架的核心包括任务条件化的进度势能、OPD 三层指标体系,以及用于验证评估器细粒度分辨能力的 RoboPulse 基准。
论文标题:PRM-as-a-Judge: A Dense Evaluation Paradigm for Fine-Grained Robotic Auditing
论文链接:https://arxiv.org/abs/2603.21669
网页链接:https://prm-as-a-judge.github.io/
代码链接:https://github.com/Yuheng2000/PRM-as-a-Judge
Benchmark 链接:https://huggingface.co/datasets/yuheng2000/RoboPulse
1. 为什么二元成功率不足以评估长程任务?
在现有具身智能研究中,策略评估仍然高度依赖二元成功率。对于短程、结构清晰的任务,这一指标能够提供一种直观的比较方式;但当任务逐渐演化为长程、多阶段、强交互的复杂操作时,二元成功率所能提供的信息开始明显不足。
这种不足主要体现在两个方面。
首先是 分辨率不足 。二元标签只能回答 “最终是否成功”,却无法刻画轨迹内部的关键差异。一个已经接近完成、却在最后阶段失手的轨迹,与一个在早期就明显偏离目标的轨迹,往往都会被统一记为失败。这样一来,不同方法在任务推进深度上的真实差异就被压缩掉了。
其次是 诊断能力有限 。成功率无法回答机器人是 “如何成功” 的,也无法解释它 “为何失败”。一次平稳高效的成功执行,与一次依赖多次冗余修正后才勉强完成的轨迹,在结果层面可能完全相同;同样,停滞、回退、恢复失败等过程特征,也不会在最终标签中留下痕迹。对于需要进一步定位瓶颈、优化策略行为的研究而言,这种信息缺失会直接限制后续分析的深度。
因此,对于长程任务来说,决定策略优劣的关键已经不再只是终点上的 “成功” 与 “失败”,而是执行过程中究竟推进到了哪一阶段、推进得是否稳定,以及失效究竟发生在什么位置。
相同的二元标签下隐藏着截然不同的物理执行逻辑。失败可能发生在任务的任何阶段(从 5% 到 99% 进度),而成功亦有 “平稳高效” 与 “反复修正” 之分 。
2. 从结果判定到过程级评测
为了恢复被二元标签压缩掉的轨迹信息,作者将评测重心从 “结果” 转向 “过程”。在真实物理场景中,研究者通常拿不到模拟器中的特权信息,例如精确位姿、接触力或完整状态变量。
因此,这项工作没有把评测建立在这些理想化信号上,而是选择了一条更具现实意义的路径: 直接根据视觉状态的演化来刻画任务进度 。
具体来说,作者为给定任务条件下的每个状态分配一个位于 [0,1] 区间上的进度势能 Φ。一旦有了这个势能表示,一条原本只对应 “成功/失败” 标签的执行轨迹,就可以被表示为一条随时间变化的连续进度曲线。这样,研究者看到的就不再只是一个终点结果,而是一条可比较、可分解、可诊断的过程信号:轨迹推进得有多深,推进过程中是否反复回退,哪些阶段容易停滞,都可以被显式刻画出来。
3. 一个合格的密集评测器,需要满足什么条件?
在这一框架下,作者进一步把 “密集评测” 形式化为两个核心性质。
第一个是 macro-consistency 。它要求评测结果在时间上具有可加性和路径一致性:同一段执行过程,无论如何切分为更短的时间片,其累积进度都应保持一致。换句话说,评测结果不能随着轨迹分段方式的改变而漂移。
第二个是 micro-resolution 。它要求评测器能够识别细粒度、任务相关的状态变化,而不是只对粗粒度视觉差异做出反应。
作者进一步指出,在其采用的 potential-based formulation 中,只要评测器能够在固定任务上下文下,为每个状态赋予一个可比较的标量进度值,并将任意时间区间上的进度定义为两个状态势能的差值,那么宏观上的时间加性与分段不变性就可以直接得到保证。PRM judge 在这里被作者视为这种表述的一个自然且实用的实现:它通过任务条件化的标量进度输出,为 OPD 指标提供统一的进度坐标。
相比之下,许多依赖相对比较或相似度启发式的方法,往往并不显式对应这样一个全局一致的势能表示,因此在不同时间段、不同视角或不同比较基准下,更容易出现尺度漂移或路径相关的问题。至于 micro-resolution,则不能仅由这种结构性定义自动推出,而仍需通过专门的诊断基准进行检验。
4. OPD:把一条轨迹拆成三层可解释信号
在进度势能 Φ 的基础上,作者构建了 OPD(Outcome–Process–Diagnosis) 指标体系,用于把一条复杂执行轨迹分解为三个层次的审计结果。Outcome 层回答 “推进到了哪里”,Process 层回答 “推进得怎么样”,Diagnosis 层回答 “如果没做好,问题主要出在哪里”。这也是 PRM-as-a-Judge 的核心输出形式。
在 Outcome 层,作者采用 MC 和 MP 两个指标描述推进深度。其中,MC(Milestone Coverage)用于刻画轨迹到达了哪些关键里程碑,MP(Max Progress)则记录整段轨迹曾达到的最高连续进度值。它们共同回答的是:这条轨迹究竟走到了什么位置。
在 Process 层,作者定义了 PPL(Path-weighted Progress Length),用于衡量推进是否高效、是否存在明显冗余。PPL 越高,说明轨迹越接近单调推进、回绕和反复修正越少。它对应的是 “同样推进到某个位置,不同策略的路径质量是否一致” 这一问题。
在 Diagnosis 层,作者使用 CRA 和 STR 刻画两类常见失效机制。CRA(Cumulative Regret Area)衡量轨迹相对于历史最佳状态的累计回退程度;STR(Stagnation Ratio)则衡量轨迹中 “几乎没有任务相关推进” 的时间占比,用于反映犹豫、等待或停滞。与单一成功率相比,OPD 的价值不在于 “多报几个数”,而在于它把执行过程重写为结构化、可诊断的行为信号。