ICLR 2026|大模型当裁判也「翻车」？北大清华联合多校提出TrustJudge，让LLM评估更值得信赖

速读：但拉到一起做比较，模型是感知得到这0.4差距的——矛盾就这么来了。北大清华联合多校提出TrustJudge，让LLM评估更值得信赖2026年03月31日13:36机器之心Pro本文共同第一作者王一栋（北京大学）和宋昀泽（新加坡国立大学）主要从事大语言模型评估与对齐研究。

2026年03月31日 13:36

本文共同第一作者王一栋（北京大学）和宋昀泽（新加坡国立大学）主要从事大语言模型评估与对齐研究。通讯作者王存翔（清华大学）和叶蔚、张世琨（北京大学）分别在自然语言处理、软件工程和知识推理等方向有长期积累。团队成员来自北大、清华、南大、NUS、CMU、西湖大学、东南大学、东京科学大学等多所高校，长期关注 LLM 可信评估问题。

让 GPT-4 给两篇文章打分，A 拿了 4 分、B 拿了 3 分。按常理 A 应该比 B 好吧？但换成成对比较，同一个模型却说「B 更好」。更离谱的情况也有——A > B > C > A 的「石头剪刀布」循环，连传递性都守不住。这事还真不少见。

北京大学、清华大学等八所高校的研究团队在 ICLR 2026 上提出了 TrustJudge ，一个基于概率的评估框架。核心想法不复杂：与其让模型吐一个离散分数了事，不如把它内部的完整概率分布也用上。不用额外训练，评估不一致性就降了一大截，准确率还跟着涨了。

论文标题：TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them

作者：Yidong Wang*, Yunze Song*, Tingyuan Zhu, Xuanwang Zhang, Zhuohao Yu, Hao Chen, Chiyu Song, Qiufeng Wang, Zhen Wu, Xinyu Dai, Yue Zhang, Cunxiang Wang†, Wei Ye†, Shikun Zhang†

单位：北京大学、清华大学、新加坡国立大学、南京大学、卡内基梅隆大学、西湖大学、东南大学、东京科学大学

论文链接：https://arxiv.org/abs/2509.21117

开源代码：https://github.com/TrustJudge/TrustJudge

01｜问题有多严重？

用大模型给其他模型当裁判，已经是评估界的标配——MT-Bench 用单项评分，AlpacaEval 用成对比较，RLHF/GRPO 做偏好标注。但这个裁判的两种考法给出的结论，经常打架。

TrustJudge 的作者做了系统测量，把问题量化成了两类：

评分-比较不一致（Score-Comparison Inconsistency）

打分时 A 比 B 高，拉到一起比较时又说 B 好。用 Llama-3.1-70B 测试，不一致率 23.32%——差不多每四次评估就矛盾一次。

成对传递性不一致（Pairwise Transitivity Inconsistency）

成对比较出现循环偏好（A > B > C > A）或者等价矛盾（A = B = C 但 A ≠ C）。Llama-3.1-70B 上的不一致率是 15.22% 。

图 1：左图是 Llama-3 系列在 1,200 条指令上的评分熵分布，右图是成对比较中两种传递性错误的占比。

02｜问题出在哪？

数据摆出来了，接下来的问题是：这两类不一致的根源是什么？作者从信息论的角度做了归因。

离散评分丢信息

5 分制打分，本质上是把模型心里的连续判断硬塞进几个整数格子里。比方说两条回复质量分别是 3.8 和 4.2，5 分制下都成了 4 分，打分看不出差别。但拉到一起做比较，模型是感知得到这 0.4 差距的——矛盾就这么来了。

作者还在理论上证了一条：存在两个不同的概率分布，离散评分下完全相同，但信息熵不同。换句话说，离散化在结构上就一定会丢东西。

模糊平局带来传递性问题

做成对比较时，模型对质量相近的回复经常给「平局」。但平局和平局不一样——有的是模型真觉得半斤八两，有的纯粹是拿不准。这些「含糊的平局」在不同组合里不一致地冒出来，A = B、B = C、但 A ≠ C 的情况就出现了。

03｜TrustJudge 怎么做的？

思路说白了就一句话：别只取模型吐出的那个离散答案，把背后的概率分布也用起来。框架分两块：

分布敏感评分（Distribution-Sensitive Scoring）

传统做法是让模型输出一个分数然后直接采纳。TrustJudge 不这样干：

把评分尺度从 5 分拉到 100 分，先把粒度给够。

对所有候选分数的 logits 做 softmax，得到一个完整的概率分布。

算加权期望作为最终分数：

主题：评估|模型|作者