大模型SFT后效果≠RL潜力!港科大、阿里提出自适应冷启动新范式
本文第一作者是来自香港科技大学的博士生李欣然,并由胡张广达、厦门大学沈思淇副教授、阿里集团陈庆国、徐昭、骆卫华、张凯夫和香港科技大学张军教授合作完成。
自 2025 年以来,强化学习(RL)逐渐成为了大语言模型(LLM)后训练(Post-training)阶段的默认范式。大量研究与实践表明:不依赖海量人工标注,仅靠 RL 就能激发出模型令人惊叹的复杂推理和长思维链(Long-CoT)能力,甚至赋予了模型达成超人类表现的潜力。
然而,尽管强化学习范式提供了极高的理论上限,许多研究者和开发者在复现 RL 训练时却遭遇了现实的问题: 如果直接把一个普通的基座模型扔给强化学习算法,由于缺乏方向性的引导,RL 算法往往会像个无头苍蝇一样乱撞,在有限的步数内根本探索不出正确的推理路径。
为了解决这个问题,目前的标准做法是:在 RL 之前,先用少量的优质数据进行监督微调(SFT),给模型做一个「冷启动(Cold-start)」热身,以此提高 RL 阶段的效率。
但这又引出了一个极具争议的新问题: 冷启动 SFT 到底要训练到什么程度?SFT 的分数越高,后续的 RL 效果就一定越好吗?
近期,来自 香港科技大学、阿里巴巴以及厦门大学 的研究团队,联合发表了一项已被 ICLR 2026 接收的重磅研究。他们首次揭示了 SFT 冷启动阶段的一个「致命陷阱」—— 冷启后表现最好的 Checkpoint,往往并不对应最大的强化学习潜力 。
研究团队指出,想要模型最终在后训练整体效果达到最佳,SFT 冷启阶段就不应过度追求测试集准确率,而必须兼顾准确率与 多样性(Diversity) 。基于此,团队提出了一种全新的 自适应早停损失函数(AESL) ,为大模型的 RL 训练打造了最完美的起跑线。
目前,该论文的代码已全面开源。