登录

能力


描述

能力是全新的,失败模式是全新新的,而你的评估工具套件里没有任何针对它的设计。
文章

分类

飞跃

DeepMind华人研究员LunWang离职,「评估」成制约模型能力飞跃的瓶颈2026年05月19日15:19机器之心Pro近日,谷歌DeepMind研究员LunWang@lunwang1996,在x上发文宣布自己已经从DeepMind离职,结束了这段非常精彩的旅程,「我非常感谢曾经共事的人、我们一起打造的东西,以及我在将前沿AI研究推向生产环境过程中学到的经验。
文章

制约(模型)下一次能力飞跃的真正瓶颈,并不是训练、架构或数据,而是评估(Eval)。
文章

转变

对于部署规模的LLM,现在还没有找到这种「序参量」——至少没有用于能力转变的序参量。
文章

跃迁

这也是为什么LunWang认为评估是下一次能力跃迁的瓶颈。
文章

相变

HaozheShan、QianyiLi和HaimSompolinsky于2026年发布的论文中提到,利用统计力学推导出了持续学习环境下深度网络的序参量,并且这些序参量能够预测学习能力的相变。
文章

其它

「我们似乎很擅长评估已经拥有的模型,却远不擅长评估即将构建出来的模型——尤其是当这些模型跨入一个全新的能力区间时。
文章