ACL 2026|中科大&上海AILab揭示强化学习后训练的Scaling Law|中国科学技术大学

速读：OpenAI早在2020年便揭示了预训练阶段的Scaling法则，证明模型性能随参数量、数据量和计算量的增长呈现可预测的幂律关系，奠定了现代大模型「规模即力量」的范式基础。

ACL 2026 | 中科大&上海AILab揭示强化学习后训练的Scaling Law

2026年04月27日 19:0

从 DeepSeek-R1 到 Kimi K2.5，强化学习（RL）后训练已经成为提升大模型推理能力的核心手段。

但一个关键问题始终悬而未决： RL 后训练的 Scaling 行为到底遵循什么规律？能否像预训练 Scaling Law 那样，给定模型参数量、计算预算和数据量，就能定量预测 RL 后训练所能达到的性能？又能否像预训练 Scaling Law 那样，为实践者指明一条清晰的扩展路径？

来自中国科学技术大学和上海人工智能实验室等机构的研究团队给出了系统性的回答。团队在 Qwen2.5 全系列密集模型（0.5B–72B）上开展了大规模 RL 训练实证研究，并在 Llama 3 系列（1B–70B）上完成了跨架构验证，首次全面刻画了大模型强化学习后训练在数学推理任务上的 Scaling 行为，提出了一套能够预测模型学习效率与训练轨迹的幂律公式。

目前该工作已被 ACL 2026 主会议接收。

论文地址：https://arxiv.org/abs/2509.25300

代码链接：https://github.com/tanzelin430/Mathematical-Reasoning-RL-Scaling-Law

数据集：https://huggingface.co/datasets/Artemis0430/GURU-MATH-CL

预训练有 Scaling Law，RL 后训练呢？

Scaling Law 的故事并不陌生。OpenAI 早在 2020 年便揭示了预训练阶段的 Scaling 法则，证明模型性能随参数量、数据量和计算量的增长呈现可预测的幂律关系，奠定了现代大模型「规模即力量」的范式基础。

然而，当训练范式从预训练 / 监督微调阶段延伸到强化学习后训练时，这套 Scaling 规律便难以直接套用。RL 的核心目标是通过策略优化来最大化奖励，而非最小化 next-token prediction 的交叉熵损失，其训练动态、数据利用方式和计算消耗模式都与预训练有着本质区别。

这意味着，要理解 RL 后训练的 Scaling 行为，需要回到实验中去，重新建立属于 RL 自身的经验规律。

研究团队选择数学推理作为实验平台，原因在于数学任务具有天然的答案可验证性，能够为 RL 提供精确的奖励信号，是当前 RL 后训练最成熟的基准场景。在此基础上，团队围绕计算受限、数据受限和数据重用三种典型场景展开了大规模受控实验。

实验设计与评测框架

为确保结论的鲁棒性，研究团队在实验设计上做了充分的控制。

模型方面，主实验覆盖了 Qwen2.5 全系列 Dense 模型（0.5B 至 72B），共享相同架构，确保模型规模是唯一变量。

同时，为了保证 Scaling Law 的通用性，研究人员还在 Llama 3 系列（1B 至 70B）上进行了跨架构验证。训练统一采用 VeRL 分布式 RL 平台和 GRPO 算法，每个配置重复 3 次，覆盖 Base 和 Instruct 两种模型变体，以保证统计可靠性。

训练数据来自 guru-RL-92k 数据集的数学子集（约 5.4 万道题，由 OR1、DeepScaler、DAPO 三个数据集组成），按难度排序实现课程学习。

评测方面，研究团队定义测试损失 L = 1 - Pass@1 作为核心指标，以期与预训练 Scaling Law 文献中的 test loss 概念对齐。域内评测基于 500 道保持原始难度分布的数学题用于拟合 Scaling Law，跨领域评测则覆盖数学、代码、逻辑、科学等 8 个 benchmark 共约 3000 道题。

基于这套实验框架，研究团队得到了三个关键发现。

核心发现

发现一：具有 RL 性能预测能力 Scaling Law

研究的核心发现是一个简洁而强大的 scaling 公式。模型的测试损失 L 与训练资源 X（计算量 C 或数据量 D）之间存在对数线性关系：

主题：后训练|预训练|研究团队