能力

能力是全新的，失败模式是全新新的，而你的评估工具套件里没有任何针对它的设计。

文章

DeepMind华人研究员LunWang离职，「评估」成制约模型能力飞跃的瓶颈2026年05月19日15:19机器之心Pro近日，谷歌DeepMind研究员LunWang@lunwang1996，在x上发文宣布自己已经从DeepMind离职，结束了这段非常精彩的旅程，「我非常感谢曾经共事的人、我们一起打造的东西，以及我在将前沿AI研究推向生产环境过程中学到的经验。

文章

制约（模型）下一次能力飞跃的真正瓶颈，并不是训练、架构或数据，而是评估（Eval）。

文章

对于部署规模的LLM，现在还没有找到这种「序参量」——至少没有用于能力转变的序参量。

文章

这也是为什么LunWang认为评估是下一次能力跃迁的瓶颈。

文章

HaozheShan、QianyiLi和HaimSompolinsky于2026年发布的论文中提到，利用统计力学推导出了持续学习环境下深度网络的序参量，并且这些序参量能够预测学习能力的相变。

文章

「我们似乎很擅长评估已经拥有的模型，却远不擅长评估即将构建出来的模型——尤其是当这些模型跨入一个全新的能力区间时。

文章