多变量神经缩放定律迈向大一统:Mila联手DeepMind提出UNSL
过去的大模型 scaling law 通常回答的是:当模型参数量、数据量和训练计算量增加后,loss 会如何下降。
但真实训练过程要复杂得多。模型性能不只受参数量和数据量影响,还会受到训练步数、处理 token 数、数据是否被重复使用、batch size、学习率、初始化尺度,以及推理时计算量等因素影响。
更麻烦的是,这些变量之间并不是简单相加关系:某个变量可能在特定区间成为瓶颈,也可能让性能曲线出现阶段性「拐点」,甚至带来非单调变化。比如,训练数据太少或训练超过一定 epoch 后可能出现过拟合;学习率或初始化权重标准差过大,也可能反过来损害性能。
针对这些限制, 来自蒙特利尔大学 Mila、Google DeepMind 的研究者提出了一种全新的函数形式,称为统一神经缩放定律(Unified Neural Scaling Law,简称 UNSL) ,它把多变量同时变化、拐点、瓶颈、过拟合以及超参数带来的反向作用统一纳入 scaling law。
所以,这篇论文的主张可以概括为:神经网络的 scaling behavior 不应该只用「参数量 — 数据量 —loss」这样的二维或三维公式描述,而应该用一个能同时处理多变量、阶段性转折、性能瓶颈、过拟合和超参数影响的统一函数形式。
论文标题:Unified Neural Scaling Laws
论文链接:https://arxiv.org/pdf/2605.26248
论文一作 Ethan Caballero 用一段视频,展示了「统一神经缩放定律」准确建模和外推人工神经网络在多个变量同时变化时呈现出的多变量缩放定律。
UNSL 的函数形式
UNSL 的完整架构是由多个分层函数嵌套而成的,它在多维对数空间中将性能建模为一组平滑连接的超平面:
其中 Q 定义如下:
R 定义如下:
K 为多变量断裂神经缩放定律(Multivariate Broken Neural Scaling Law,MBNSL),定义如下:
整体上可以像下面这样理解:
在函数形式上,UNSL 不是简单把参数量、数据量和训练步数塞进一个幂律公式,而是采用了一套分层结构。
底层的 K 是多变量 broken scaling law,用来描述 log-log 空间中由多个平滑连接超平面构成的 scaling 曲面;其中的 hyperbreak 对应性能曲面中的阶段性转折。
再往上一层,R 将整体 scaling 行为拆成非瓶颈组件和瓶颈组件,分别描述多变量共同作用下的整体趋势,以及某一单独变量限制最终性能的情况。瓶颈组件表示,当其他变量都足够好时,某一个变量仍可能单独限制性能。例如模型够大、训练够久,但数据量不足,数据量就成为瓶颈;或者数据足够多,但模型太小,参数量成为瓶颈。
Q 则进一步引入学习率、初始化尺度等超参数可能带来的反向作用。
最外层公式再加入不可约性能极限、评价指标导致的坏表现极限,以及训练超过一定 epoch 后可能出现的过拟合项。
下图为 统一神经缩放定律(Unified Neural Scaling Law,UNSL)的示意图 ,包含两个输入维度 x_1 和 x_2;中间图和右侧图分别展示了它在各个输入维度上的投影。
在这个具体例子中,一个 UNSL 包含 3 个 hyperbreak,也就是图中用更亮的虚线标出的橙色、黄色和绿色转折结构。Hyperbreak 可以理解为 scaling law 中的「阶段转折」。例如一开始增加数据带来明显收益,过了某个区间收益下降,这个转折就是一种 break;多变量情况下,它不再是一点,而是高维空间里的转折面。
其中,绿色 hyperbreak 由非瓶颈组件产生;橙色 hyperbreak 由 x_1 瓶颈组件产生;黄色 hyperbreak 由 x_2 瓶颈组件产生。