登录

ICLR 2026|大模型当裁判也「翻车」?北大清华联合多校提出TrustJudge,让LLM评估更值得信赖


速读:但拉到一起做比较,模型是感知得到这0.4差距的——矛盾就这么来了。 北大清华联合多校提出TrustJudge,让LLM评估更值得信赖2026年03月31日13:36机器之心Pro本文共同第一作者王一栋(北京大学)和宋昀泽(新加坡国立大学)主要从事大语言模型评估与对齐研究。
2026年03月31日 13:36

本文共同第一作者王一栋(北京大学)和宋昀泽(新加坡国立大学)主要从事大语言模型评估与对齐研究。通讯作者王存翔(清华大学)和叶蔚、张世琨(北京大学)分别在自然语言处理、软件工程和知识推理等方向有长期积累。团队成员来自北大、清华、南大、NUS、CMU、西湖大学、东南大学、东京科学大学等多所高校,长期关注 LLM 可信评估问题。

让 GPT-4 给两篇文章打分,A 拿了 4 分、B 拿了 3 分。按常理 A 应该比 B 好吧?但换成成对比较,同一个模型却说「B 更好」。更离谱的情况也有——A > B > C > A 的「石头剪刀布」循环,连传递性都守不住。这事还真不少见。

北京大学、清华大学 等八所高校的研究团队在  ICLR 2026  上提出了  TrustJudge ,一个基于概率的评估框架。核心想法不复杂:与其让模型吐一个离散分数了事,不如把它内部的完整概率分布也用上。不用额外训练,评估不一致性就降了一大截,准确率还跟着涨了。

论文标题:TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them

作者:Yidong Wang*, Yunze Song*, Tingyuan Zhu, Xuanwang Zhang, Zhuohao Yu, Hao Chen, Chiyu Song, Qiufeng Wang, Zhen Wu, Xinyu Dai, Yue Zhang, Cunxiang Wang†, Wei Ye†, Shikun Zhang†

单位:北京大学、清华大学、新加坡国立大学、南京大学、卡内基梅隆大学、西湖大学、东南大学、东京科学大学

论文链接:https://arxiv.org/abs/2509.21117

开源代码:https://github.com/TrustJudge/TrustJudge

01|问题有多严重?

用大模型给其他模型当裁判,已经是评估界的标配——MT-Bench 用单项评分,AlpacaEval 用成对比较,RLHF/GRPO 做偏好标注。但这个裁判的两种考法给出的结论,经常打架。

TrustJudge 的作者做了系统测量,把问题量化成了两类:

评分-比较不一致(Score-Comparison Inconsistency)

打分时 A 比 B 高,拉到一起比较时又说 B 好。用 Llama-3.1-70B 测试,不一致率 23.32%——差不多每四次评估就矛盾一次。

成对传递性不一致(Pairwise Transitivity Inconsistency)

成对比较出现循环偏好(A > B > C > A)或者等价矛盾(A = B = C 但 A ≠ C)。Llama-3.1-70B 上的不一致率是  15.22% 。

图 1:左图是 Llama-3 系列在 1,200 条指令上的评分熵分布,右图是成对比较中两种传递性错误的占比。

图 1:左图是 Llama-3 系列在 1,200 条指令上的评分熵分布,右图是成对比较中两种传递性错误的占比。

02|问题出在哪?

数据摆出来了,接下来的问题是:这两类不一致的根源是什么?作者从信息论的角度做了归因。

离散评分丢信息

5 分制打分,本质上是把模型心里的连续判断硬塞进几个整数格子里。比方说两条回复质量分别是 3.8 和 4.2,5 分制下都成了 4 分,打分看不出差别。但拉到一起做比较,模型是感知得到这 0.4 差距的——矛盾就这么来了。

作者还在理论上证了一条:存在两个不同的概率分布,离散评分下完全相同,但信息熵不同。换句话说,离散化在结构上就一定会丢东西。

模糊平局带来传递性问题

做成对比较时,模型对质量相近的回复经常给「平局」。但平局和平局不一样——有的是模型真觉得半斤八两,有的纯粹是拿不准。这些「含糊的平局」在不同组合里不一致地冒出来,A = B、B = C、但 A ≠ C 的情况就出现了。

03|TrustJudge 怎么做的?

思路说白了就一句话: 别只取模型吐出的那个离散答案,把背后的概率分布也用起来。 框架分两块:

分布敏感评分(Distribution-Sensitive Scoring)

传统做法是让模型输出一个分数然后直接采纳。TrustJudge 不这样干:

把评分尺度从 5 分拉到 100 分,先把粒度给够。

对所有候选分数的 logits 做 softmax,得到一个完整的概率分布。

算加权期望作为最终分数:

主题:评估|模型|作者