大模型SFT后效果≠RL潜力！港科大、阿里提出自适应冷启动新范式

速读：然而，尽管强化学习范式提供了极高的理论上限，许多研究者和开发者在复现RL训练时却遭遇了现实的问题：如果直接把一个普通的基座模型扔给强化学习算法，由于缺乏方向性的引导，RL算法往往会像个无头苍蝇一样乱撞，在有限的步数内根本探索不出正确的推理路径。

2026年04月04日 11:26

本文第一作者是来自香港科技大学的博士生李欣然，并由胡张广达、厦门大学沈思淇副教授、阿里集团陈庆国、徐昭、骆卫华、张凯夫和香港科技大学张军教授合作完成。

自 2025 年以来，强化学习（RL）逐渐成为了大语言模型（LLM）后训练（Post-training）阶段的默认范式。大量研究与实践表明：不依赖海量人工标注，仅靠 RL 就能激发出模型令人惊叹的复杂推理和长思维链（Long-CoT）能力，甚至赋予了模型达成超人类表现的潜力。

然而，尽管强化学习范式提供了极高的理论上限，许多研究者和开发者在复现 RL 训练时却遭遇了现实的问题：如果直接把一个普通的基座模型扔给强化学习算法，由于缺乏方向性的引导，RL 算法往往会像个无头苍蝇一样乱撞，在有限的步数内根本探索不出正确的推理路径。

为了解决这个问题，目前的标准做法是：在 RL 之前，先用少量的优质数据进行监督微调（SFT），给模型做一个「冷启动（Cold-start）」热身，以此提高 RL 阶段的效率。

但这又引出了一个极具争议的新问题：冷启动 SFT 到底要训练到什么程度？SFT 的分数越高，后续的 RL 效果就一定越好吗？

近期，来自香港科技大学、阿里巴巴以及厦门大学的研究团队，联合发表了一项已被 ICLR 2026 接收的重磅研究。他们首次揭示了 SFT 冷启动阶段的一个「致命陷阱」—— 冷启后表现最好的 Checkpoint，往往并不对应最大的强化学习潜力。

研究团队指出，想要模型最终在后训练整体效果达到最佳，SFT 冷启阶段就不应过度追求测试集准确率，而必须兼顾准确率与多样性（Diversity）。基于此，团队提出了一种全新的自适应早停损失函数（AESL），为大模型的 RL 训练打造了最完美的起跑线。

目前，该论文的代码已全面开源。