快手开源GoLongRL:23 K样本、9大任务类型,长上下文RL荒的时代结束了
本研究由快手科技语言大模型团队完成,核心作者吕民轩、梅铁桦、杜坦隆等。快手科技与中国科学院大学联合提出 GoLongRL,一套完全开源的长上下文强化学习后训练方案,包含 23K 样本 RLVR 数据集、完整训练代码,以及针对异构多任务的新算法 TMN-Reweight。
论文标题: GoLongRL: Capability-Oriented Long Context Reinforcement Learning with Multitask Alignment
论文链接:https://huggingface.co/papers/2605.19577
GitHub:https://github.com/xiaoxuanNLP/GoLongRL
图 1:GoLongRL-30B-A3B 与各顶级模型的长上下文综合评测对比 为什么现有的长上下文 RL 方法不够好?
当前主流的长上下文 RL 方法(LoongRL、LongRLVR、QwenLong-L1.5 等)有两个共同问题:训练数据基本围绕 “在更长文本里找更难找的答案” 这条路走,任务覆盖高度同质;奖励设计被压缩为单一的精确匹配或准确率,排序、摘要、穷举检索这些能力几乎没有直接监督。
数据:以能力为导向
三大设计原则
GoLongRL 的数据构造遵循三大原则: 能力导向、奖励与任务语义对齐、真实文档优先。
能力导向 。参考 LongBench Pro 提出的能力分类体系,定义了 9 种核心任务类型,覆盖长上下文理解所需的关键能力维度。T1-T4 构成训练主干(占比超过 90%),覆盖基础长上下文能力;T6-T9 的样本量相对较少(合计不足 4%),但每种任务都保留了其最自然的奖励形式,确保完整的能力覆盖。
这 9 大任务类型及其对应的能力维度如下:
表 1:GoLongRL 数据集能力类型及其对应奖励 奖励与任务语义对齐 。长上下文任务在评估维度上差异显著:摘要依赖 ROUGE,排序依赖 NDCG,抽取依赖 F1,将其统一压缩为单一指标会损失大量任务特有的语义信息。GoLongRL 为每类任务单独配置最契合其目标的评估指标作为奖励函数,使 RL 训练中的反馈信号与任务本身的评估逻辑保持一致。
真实文档优先 。基于模板的合成数据存在一个结构性风险:当多段短文档被拼接为长输入时,段落边界与格式标记本身携带了可被利用的位置信息,模型容易习得依赖这类浅层线索作答的捷径,而非形成真正的跨段落理解能力。因此 GoLongRL 以书籍、学术论文、法律文书和财务报告等真实文档为主要训练来源。对于标注稀缺的领域,仅在真实文档上合成问答对,而非生成文档本身。
图 2:训练数据的 UMAP 投影 数据来源:开源策略与合成策略并行
数据集的 22,965 个样本来自两个互补的池子:
约 14K 开源样本 :从 CLongEval、LongBench Pro、MultiTableQA、CAIL2018 等已开源的长上下文语料库中改写,这些样本已有人工验证的标注,覆盖法律案例、财务报告、文学小说和多轮对话等多个领域。
约 9K 合成样本 :问答对由真实源文档生成,源文档包括 Project Gutenberg 图书、arXiv CC0 等自然长文素材。合成的是问答对本身,而非文档。
四阶段构造 pipeline
图 3:GoLongRL 数据构造四阶段 pipeline 整个数据集通过统一的四阶段流水线生产:
P1 源语料收集 :按 9 类任务分别收集有标注的开源数据集和无标注真实文档,尽量覆盖不同领域、文档结构和长度区间。
P2 任务过滤与分配 :对每个样本按任务语义分配唯一标签。比如 CLongEval 里定位单一事实的样本归 T1,CAIL2018 里需要聚合多条法律条款的归 T3,对话记忆子类(T2)只保留超过 50 轮、30K Token 以上的对话。
P3 样本构造 :开源数据做兼容性过滤和奖励格式标准化(如把数值答案改写为 math_verify 可解析格式)。合成数据按文档长度分桶,普通长度用 DeepSeek-V3.2 生成问答对,超长文档交给 Gemini-2.5-Pro;生成后经两阶段质量过滤 —— 先由 Gemini-2.5-Pro 验证答案唯一性和无幻觉,再用 Qwen3-4B 和 Qwen3-30B-A3B 的多级通过率测试剔除标签噪声。
P4 迭代精化 :先做 13-gram 重叠过滤防数据污染,再训练并做基准诊断。某维度停滞就排查奖励作弊、答案歧义等问题并清除;信号不足就回到 P1–P3 定向补数据,循环至性能和质量稳定。
TMN-Reweight:面向异构多任务的优化算法
能力导向的数据集带来了 9 种不同的奖励函数,它们的数值尺度和方差分布各不相同。在标准 GRPO 框架下进行混合训练时,优化过程面临两个相互纠缠的问题。
问题一:难度导致的优势估计偏差 。GRPO 计算优势时会除以组内奖励标准差 ,导致特别难或特别简单的 prompt( 很小)优势值被放大,而中等难度的 prompt(回复有成功有失败, 较大)反而被压缩 —— 而后者恰恰是最具训练价值的样本。
问题二:跨任务奖励尺度不一致 。不同任务的评估指标(EM、F1、ROUGE-L 等)产生截然不同的奖励分布。Dr. GRPO 为解决问题一而移除了 ,却使高方差任务(如 F1 检索)产生不成比例的大梯度主导优化,低方差任务(如二值准确率)的学习信号被淹没。
TMN-Reweight 的核心思路
TMN-Reweight 将尺度归一化与难度校正 解耦为两个独立步骤 。
第一步:任务级均值归一化(TMN) 。不再用逐 prompt 的标准差 ,再在同一任务内做均方根聚合,得到所有该任务 prompt 共享的分母 。这样既保留了任务级的尺度对齐,又在任务内部保留了 prompt 之间原始的难度差异结构,供第二步利用。实验结果印证了这一设计:TMN 将跨任务优势量级的变异系数(CV)从 Dr. GRPO 的 0.54、标准 GRPO 的 0.34 降低到了 0.18。
做归一化,而是先计算每个 prompt 的组内标准差
第二步:难度自适应重加权 。尺度对齐后,再用平滑后的通过率