强化学习
分类
阶段
研究人员在对拥有了原子能力的SFT模型进行强化学习训练,通过改变强化学习阶段提供的题目难度(仅单函数、仅二层嵌套函数、单函数与二层嵌套函数混合),观察模型在三层、四层乃至更深层次的组合问题上的测试性能(这些问题在训练中从未出现过,且所涉及的原子函数本身也未在强化学习阶段见过),研究人员发现仅在单函数上进行强化学习的模型,在三层及以上组合任务上的准确率几乎为零,而一旦训练数据中包含最基础的二层嵌套函数,模型在三层组合上的准确率可提升至约30%,在四层组合上仍保持约15%,并在更高层级上持续显著
文章
而在强化学习阶段,仍然只在包含二层嵌套函数的输出预测任务上进行强化学习。
文章
训练
基础模型、监督学习模型以及仅进行原子强化学习训练的模型,其主要错误来源于忽略组合结构或误解嵌套关系。
文章
而经过组合任务强化学习训练的模型,其错误更多来自原子步骤的执行失误,而非对整体组合结构的误解。
文章
模型
尤其是在pass@k等评测指标下,强化学习模型与基础模型之间的差距常常随着采样数的增加而迅速缩小,这使得一种观点逐渐占据上风:强化学习可能更多是在对模型内部已有解法进行筛选和重排,而非真正拓展模型的能力边界。
文章
相比之下,强化学习模型不仅能够稳定解决二层组合问题,还能系统性地外推到更深层的组合任务,说明真正起关键作用的是强化学习所引入的结果驱动、探索机制与策略更新过程,它们共同促使模型形成新的推理结构。
文章
而在高难度组合任务中,基础模型即使在极大采样预算下仍表现不佳,强化学习模型的优势却随着采样数增加而不断扩大。
文章
是否
与其继续在复杂的自然语言任务中争论强化学习是否“有效”,研究团队选择退回到一个更可控的实验环境,转而聚焦一个更基础也更根本的问题:强化学习究竟能否教会模型此前并不具备的新能力?
文章
在这一问题框架下,研究并未将注意力放在某一具体性能指标的提升上,而是假设模型已经掌握了一组基本的原子技能,进一步考察强化学习是否能够推动模型形成新的能力结构,使其学会系统性地组合这些技能,从而解决更高难度、甚至分布外任务中的问题。
文章
在这样的环境下,关于强化学习是否“教会模型新能力”的讨论,往往停留在指标层面的解释差异,而缺乏一个能够清晰刻画技能、控制任务难度并排除干扰因素的实验基础。
文章
围绕“强化学习是否能够教会大语言模型新的能力”这一问题,研究团队并未给出简单的肯定或否定答案,而是提出了一个条件化结论,即强化学习确实能够促使模型获得新的能力,但前提在于模型已经具备完成任务所需的原子技能,同时训练任务的设计能够真实地激励模型去使用并发展这种新能力。
文章
相比之下,字符串变换函数具有行为完全确定、复杂度可以被严格控制以及能够人为构造模型在预训练阶段几乎不可能接触过的任务等优势,从而为分析强化学习是否产生新能力提供了一个干净且可控的实验环境。
文章
技能
结合不同难度下的准确率、不同采样预算下的pass@k表现以及错误类型的细致分析,研究人员构建了一条完整而自洽的证据链,从多个角度支撑了其关于强化学习技能获取机制的结论。
文章
效果
如果强化学习仅仅激活或重排已有推理模式,这种随组合深度增加仍能发挥作用的行为是难以解释的。
文章
尤其是在pass@k等评测指标下,强化学习模型与基础模型之间的差距常常随着采样数的增加而迅速缩小,这使得一种观点逐渐占据上风:强化学习可能更多是在对模型内部已有解法进行筛选和重排,而非真正拓展模型的能力边界。
文章
而在高难度组合任务中,基础模型即使在极大采样预算下仍表现不佳,强化学习模型的优势却随着采样数增加而不断扩大。
文章
影响
相比之下,强化学习模型不仅能够稳定解决二层组合问题,还能系统性地外推到更深层的组合任务,说明真正起关键作用的是强化学习所引入的结果驱动、探索机制与策略更新过程,它们共同促使模型形成新的推理结构。
文章
如果强化学习仅仅激活或重排已有推理模式,这种随组合深度增加仍能发挥作用的行为是难以解释的。
文章
在低难度任务上,基础模型本就能够通过多次采样得到正确答案,强化学习的作用确实主要体现为重排。
文章
其它
与其继续在复杂的自然语言任务中争论强化学习是否“有效”,研究团队选择退回到一个更可控的实验环境,转而聚焦一个更基础也更根本的问题:强化学习究竟能否教会模型此前并不具备的新能力?
文章