评估

团队成员来自北大、清华、南大、NUS、CMU、西湖大学、东南大学、东京科学大学等多所高校，长期关注LLM可信评估问题。

文章

北大清华联合多校提出TrustJudge，让LLM评估更值得信赖2026年03月31日13:36机器之心Pro本文共同第一作者王一栋（北京大学）和宋昀泽（新加坡国立大学）主要从事大语言模型评估与对齐研究。

文章

值得注意的是，IMF对美国经济的评估完成于2月28日美以袭击伊朗之前，因此未全面分析中东冲突的影响。

文章

Land：中国地质大学朱江洪团队发文|青海省政策驱动的植被恢复：时空分析与政策评估

文章

这些标准不是抽象的"是否全面"或"分析是否深入"，而是诸如"是否指出小城市劳动力流失的关键原因在于职业结构错配"这样可以直接回答"是或否"的具体要求——评估模型不需要依赖自身的领域知识来判断对错，标准本身已经编码了答案。

文章

两个互补的评估框架

文章

第一个系统性评估框架

文章

该工作设计了两个评估框架，分别回答关于调研报告的两个本质不同的问题：

文章

DeepResearchBenchV1发布后，后续出现的深度研究评估基准基本都沿用了两类思路：

文章

来自中国科学技术大学的研究团队围绕这一问题展开了系列工作，先后推出了DeepResearchBench和DeepResearchBenchII两代评估基准。

文章

信通院的首批评估成果预计将于2026年6月正式发布

文章