ACL 2026|中科大&上海AILab揭示强化学习后训练的Scaling Law|中国科学技术大学
ACL 2026 | 中科大&上海AILab揭示强化学习后训练的Scaling Law
2026年04月27日 19:0
从 DeepSeek-R1 到 Kimi K2.5,强化学习(RL)后训练已经成为提升大模型推理能力的核心手段。
但一个关键问题始终悬而未决: RL 后训练的 Scaling 行为到底遵循什么规律?能否像预训练 Scaling Law 那样,给定模型参数量、计算预算和数据量,就能定量预测 RL 后训练所能达到的性能?又能否像预训练 Scaling Law 那样,为实践者指明一条清晰的扩展路径?
来自 中国科学技术大学和上海人工智能实验室等机构的研究团队 给出了系统性的回答。团队在 Qwen2.5 全系列密集模型(0.5B–72B)上开展了大规模 RL 训练实证研究,并在 Llama 3 系列(1B–70B)上完成了跨架构验证, 首次全面刻画了大模型强化学习后训练在数学推理任务上的 Scaling 行为,提出了一套能够预测模型学习效率与训练轨迹的幂律公式。
目前该工作已被 ACL 2026 主会议接收。
论文地址:https://arxiv.org/abs/2509.25300
代码链接:https://github.com/tanzelin430/Mathematical-Reasoning-RL-Scaling-Law
数据集:https://huggingface.co/datasets/Artemis0430/GURU-MATH-CL
预训练有 Scaling Law,RL 后训练呢?
Scaling Law 的故事并不陌生。OpenAI 早在 2020 年便揭示了预训练阶段的 Scaling 法则,证明模型性能随参数量、数据量和计算量的增长呈现可预测的幂律关系,奠定了现代大模型「规模即力量」的范式基础。
然而,当训练范式从预训练 / 监督微调阶段延伸到强化学习后训练时,这套 Scaling 规律便难以直接套用。RL 的核心目标是通过策略优化来最大化奖励,而非最小化 next-token prediction 的交叉熵损失,其训练动态、数据利用方式和计算消耗模式都与预训练有着本质区别。
这意味着, 要理解 RL 后训练的 Scaling 行为,需要回到实验中去,重新建立属于 RL 自身的经验规律。
研究团队选择数学推理作为实验平台,原因在于数学任务具有天然的答案可验证性,能够为 RL 提供精确的奖励信号,是当前 RL 后训练最成熟的基准场景。在此基础上,团队围绕计算受限、数据受限和数据重用三种典型场景展开了大规模受控实验。
实验设计与评测框架
为确保结论的鲁棒性,研究团队在实验设计上做了充分的控制。
模型方面,主实验覆盖了 Qwen2.5 全系列 Dense 模型(0.5B 至 72B),共享相同架构,确保模型规模是唯一变量。
同时,为了保证 Scaling Law 的通用性,研究人员还在 Llama 3 系列(1B 至 70B)上进行了跨架构验证。训练统一采用 VeRL 分布式 RL 平台和 GRPO 算法, 每个配置重复 3 次, 覆盖 Base 和 Instruct 两种模型变体,以保证统计可靠性。
训练数据来自 guru-RL-92k 数据集的数学子集(约 5.4 万道题,由 OR1、DeepScaler、DAPO 三个数据集组成),按难度排序实现课程学习。
评测方面,研究团队定义测试损失 L = 1 - Pass@1 作为核心指标,以期与预训练 Scaling Law 文献中的 test loss 概念对齐。域内评测基于 500 道保持原始难度分布的数学题用于拟合 Scaling Law,跨领域评测则覆盖数学、代码、逻辑、科学等 8 个 benchmark 共约 3000 道题。
基于这套实验框架,研究团队得到了三个关键发现。
核心发现
发现一:具有 RL 性能预测能力 Scaling Law
研究的核心发现是一个简洁而强大的 scaling 公式。模型的测试损失 L 与训练资源 X(计算量 C 或数据量 D)之间存在 对数线性关系: