评估
分类
问题
团队成员来自北大、清华、南大、NUS、CMU、西湖大学、东南大学、东京科学大学等多所高校,长期关注LLM可信评估问题。
文章
评估
北大清华联合多校提出TrustJudge,让LLM评估更值得信赖2026年03月31日13:36机器之心Pro本文共同第一作者王一栋(北京大学)和宋昀泽(新加坡国立大学)主要从事大语言模型评估与对齐研究。
文章
值得注意的是,IMF对美国经济的评估完成于2月28日美以袭击伊朗之前,因此未全面分析中东冲突的影响。
文章
Land:中国地质大学朱江洪团队发文|青海省政策驱动的植被恢复:时空分析与政策评估
文章
模型
这些标准不是抽象的"是否全面"或"分析是否深入",而是诸如"是否指出小城市劳动力流失的关键原因在于职业结构错配"这样可以直接回答"是或否"的具体要求——评估模型不需要依赖自身的领域知识来判断对错,标准本身已经编码了答案。
文章
框架
该工作设计了两个评估框架,分别回答关于调研报告的两个本质不同的问题:
文章
基准
DeepResearchBenchV1发布后,后续出现的深度研究评估基准基本都沿用了两类思路:
文章
来自中国科学技术大学的研究团队围绕这一问题展开了系列工作,先后推出了DeepResearchBench和DeepResearchBenchII两代评估基准。
文章
事件
2026-06-31
信通院的首批评估成果预计将于2026年6月正式发布
文章