登录

评估


分类

问题

团队成员来自北大、清华、南大、NUS、CMU、西湖大学、东南大学、东京科学大学等多所高校,长期关注LLM可信评估问题。
文章

评估

北大清华联合多校提出TrustJudge,让LLM评估更值得信赖2026年03月31日13:36机器之心Pro本文共同第一作者王一栋(北京大学)和宋昀泽(新加坡国立大学)主要从事大语言模型评估与对齐研究。
文章

值得注意的是,IMF对美国经济的评估完成于2月28日美以袭击伊朗之前,因此未全面分析中东冲突的影响。
文章

Land:中国地质大学朱江洪团队发文|青海省政策驱动的植被恢复:时空分析与政策评估
文章

模型

这些标准不是抽象的"是否全面"或"分析是否深入",而是诸如"是否指出小城市劳动力流失的关键原因在于职业结构错配"这样可以直接回答"是或否"的具体要求——评估模型不需要依赖自身的领域知识来判断对错,标准本身已经编码了答案。
文章

框架

两个互补的评估框架
文章

第一个系统性评估框架
文章

该工作设计了两个评估框架,分别回答关于调研报告的两个本质不同的问题:
文章

基准

DeepResearchBenchV1发布后,后续出现的深度研究评估基准基本都沿用了两类思路:
文章

来自中国科学技术大学的研究团队围绕这一问题展开了系列工作,先后推出了DeepResearchBench和DeepResearchBenchII两代评估基准。
文章

事件

2026-06-31

信通院的首批评估成果预计将于2026年6月正式发布
文章