二元成功率已经过时！PRM-as-a-Judge才是你需要的具身操作评测框架

速读：它能够回答“任务是否完成”，却难以回答“策略推进到了哪里”“执行过程是否高效稳定”“失败究竟发生在什么阶段”。 PRM-as-a-Judge：不再只根据终局结果评价策略，而是从轨迹视频中恢复任务相关的连续进度信号，并据此对执行过程进行细粒度审计。因此，这项工作没有把评测建立在这些理想化信号上，而是选择了一条更具现实意义的路径：直接根据视觉状态的演化来刻画任务进度。 PRM-as-a-Judge才是你需要的具身操作评测框架2026年04月14日08:05机器之心Pro随着机器人操作从短程、单步技能逐步走向长程、富接触、需要持续协调与恢复能力的复杂任务，传统以二元成功率为核心的评测方式开始暴露出明显局限。它要求评测结果在时间上具有可加性和路径一致性：同一段执行过程，无论如何切分为更短的时间片，其累积进度都应保持一致。

2026年04月14日 08:05

随着机器人操作从短程、单步技能逐步走向长程、富接触、需要持续协调与恢复能力的复杂任务，传统以二元成功率为核心的评测方式开始暴露出明显局限。它能够回答 “任务是否完成”，却难以回答 “策略推进到了哪里”“执行过程是否高效稳定”“失败究竟发生在什么阶段”。

围绕这一问题，来自中国科学院自动化研究所、北京大学和智源研究院等机构的研究人员提出 PRM-as-a-Ju dg e ：不再只根据终局结果评价策略，而是从轨迹视频中恢复任务相关的连续进度信号，并据此对执行过程进行细粒度审计。该框架的核心包括任务条件化的进度势能、OPD 三层指标体系，以及用于验证评估器细粒度分辨能力的 RoboPulse 基准。

论文标题：PRM-as-a-Judge: A Dense Evaluation Paradigm for Fine-Grained Robotic Auditing

论文链接：https://arxiv.org/abs/2603.21669

网页链接：https://prm-as-a-judge.github.io/

代码链接：https://github.com/Yuheng2000/PRM-as-a-Judge

Benchmark 链接：https://huggingface.co/datasets/yuheng2000/RoboPulse

1. 为什么二元成功率不足以评估长程任务？

在现有具身智能研究中，策略评估仍然高度依赖二元成功率。对于短程、结构清晰的任务，这一指标能够提供一种直观的比较方式；但当任务逐渐演化为长程、多阶段、强交互的复杂操作时，二元成功率所能提供的信息开始明显不足。

这种不足主要体现在两个方面。

首先是分辨率不足。二元标签只能回答 “最终是否成功”，却无法刻画轨迹内部的关键差异。一个已经接近完成、却在最后阶段失手的轨迹，与一个在早期就明显偏离目标的轨迹，往往都会被统一记为失败。这样一来，不同方法在任务推进深度上的真实差异就被压缩掉了。

其次是诊断能力有限。成功率无法回答机器人是 “如何成功” 的，也无法解释它 “为何失败”。一次平稳高效的成功执行，与一次依赖多次冗余修正后才勉强完成的轨迹，在结果层面可能完全相同；同样，停滞、回退、恢复失败等过程特征，也不会在最终标签中留下痕迹。对于需要进一步定位瓶颈、优化策略行为的研究而言，这种信息缺失会直接限制后续分析的深度。

因此，对于长程任务来说，决定策略优劣的关键已经不再只是终点上的 “成功” 与 “失败”，而是执行过程中究竟推进到了哪一阶段、推进得是否稳定，以及失效究竟发生在什么位置。

相同的二元标签下隐藏着截然不同的物理执行逻辑。失败可能发生在任务的任何阶段（从 5% 到 99% 进度），而成功亦有 “平稳高效” 与 “反复修正” 之分。

2. 从结果判定到过程级评测

为了恢复被二元标签压缩掉的轨迹信息，作者将评测重心从 “结果” 转向 “过程”。在真实物理场景中，研究者通常拿不到模拟器中的特权信息，例如精确位姿、接触力或完整状态变量。

因此，这项工作没有把评测建立在这些理想化信号上，而是选择了一条更具现实意义的路径：直接根据视觉状态的演化来刻画任务进度。

具体来说，作者为给定任务条件下的每个状态分配一个位于 [0,1] 区间上的进度势能 Φ。一旦有了这个势能表示，一条原本只对应 “成功/失败” 标签的执行轨迹，就可以被表示为一条随时间变化的连续进度曲线。这样，研究者看到的就不再只是一个终点结果，而是一条可比较、可分解、可诊断的过程信号：轨迹推进得有多深，推进过程中是否反复回退，哪些阶段容易停滞，都可以被显式刻画出来。

3. 一个合格的密集评测器，需要满足什么条件？

在这一框架下，作者进一步把 “密集评测” 形式化为两个核心性质。

第一个是 macro-consistency 。它要求评测结果在时间上具有可加性和路径一致性：同一段执行过程，无论如何切分为更短的时间片，其累积进度都应保持一致。换句话说，评测结果不能随着轨迹分段方式的改变而漂移。

第二个是 micro-resolution 。它要求评测器能够识别细粒度、任务相关的状态变化，而不是只对粗粒度视觉差异做出反应。

作者进一步指出，在其采用的 potential-based formulation 中，只要评测器能够在固定任务上下文下，为每个状态赋予一个可比较的标量进度值，并将任意时间区间上的进度定义为两个状态势能的差值，那么宏观上的时间加性与分段不变性就可以直接得到保证。PRM judge 在这里被作者视为这种表述的一个自然且实用的实现：它通过任务条件化的标量进度输出，为 OPD 指标提供统一的进度坐标。

相比之下，许多依赖相对比较或相似度启发式的方法，往往并不显式对应这样一个全局一致的势能表示，因此在不同时间段、不同视角或不同比较基准下，更容易出现尺度漂移或路径相关的问题。至于 micro-resolution，则不能仅由这种结构性定义自动推出，而仍需通过专门的诊断基准进行检验。

4. OPD：把一条轨迹拆成三层可解释信号

在进度势能 Φ 的基础上，作者构建了 OPD（Outcome–Process–Diagnosis）指标体系，用于把一条复杂执行轨迹分解为三个层次的审计结果。Outcome 层回答 “推进到了哪里”，Process 层回答 “推进得怎么样”，Diagnosis 层回答 “如果没做好，问题主要出在哪里”。这也是 PRM-as-a-Judge 的核心输出形式。

在 Outcome 层，作者采用 MC 和 MP 两个指标描述推进深度。其中，MC（Milestone Coverage）用于刻画轨迹到达了哪些关键里程碑，MP（Max Progress）则记录整段轨迹曾达到的最高连续进度值。它们共同回答的是：这条轨迹究竟走到了什么位置。

在 Process 层，作者定义了 PPL（Path-weighted Progress Length），用于衡量推进是否高效、是否存在明显冗余。PPL 越高，说明轨迹越接近单调推进、回绕和反复修正越少。它对应的是 “同样推进到某个位置，不同策略的路径质量是否一致” 这一问题。

在 Diagnosis 层，作者使用 CRA 和 STR 刻画两类常见失效机制。CRA（Cumulative Regret Area）衡量轨迹相对于历史最佳状态的累计回退程度；STR（Stagnation Ratio）则衡量轨迹中 “几乎没有任务相关推进” 的时间占比，用于反映犹豫、等待或停滞。与单一成功率相比，OPD 的价值不在于 “多报几个数”，而在于它把执行过程重写为结构化、可诊断的行为信号。

主题：任务|二元成功率|PRM-as-a-Judge