10万token自然语言推理，让30 B-A 3 B模型站上奥赛金牌线

速读：这样一来，结果更直接地指向模型自身的能力：一个30B-A3B规模的模型，仅靠自然语言推理，能否承担奥赛级证明？奥林匹克竞赛题一直是检验模型长程推理能力的硬场景。这表明，奥赛级科学推理的关键不只是模型规模本身，而在于能否让模型把更长的推理预算稳定转化为证明搜索、自我验证和论证修复能力。这里扩展的不是外部工具链，而是模型自身的自然语言验证与修正计算。

2026年05月19日 15:19

奥赛级科学推理，一定要从更大的通用模型开始吗？

最近上海人工智能实验室一份技术报告给出了一个不同答案：不调用外部工具、不执行代码、不接入专用符号求解器，一个 30B-A3B 规模的推理模型，也可以通过统一后训练和推理时扩展，在 IMO、USAMO、IPhO 等高难数学与物理奥赛评测中达到强劲水平。

研究团队选择从已有 30B-A3B 推理主干出发，先用约 33.8 万条高质量轨迹进行反向困惑度课程监督微调，再通过 200 步两阶段强化学习提升解题能力与完整证明质量，最后在推理阶段采用多轮「生成 - 验证 - 修正」循环。模型不调用外部工具、不执行代码、不依赖专用符号求解器，却能够在困难奥赛题上持续开展 10 万词元以上的自然语言推理。

在比赛式评测中，模型经过推理阶段扩展后，在 IMO 2025 和 USAMO 2026 中均取得 35 分，达到对应金牌级水平；在 IPhO 2024/2025 等物理奥赛任务上也达到金牌水平。在 USAMO 2026 第三题（人类选手平均分仅 0.01 分，无人过 5 分）上更是取得满分。

更重要的是，这并非来自参数惊人的「巨无霸」模型，而是一个小而精的 30B-A3B 选手。

报告还显示，在 USAMO 2026 的推理扩展轨迹中，初始解答生成的中位长度约为 10.6 万 token，自我修正阶段中位长度约为 8.3 万 token。

这表明，奥赛级科学推理的关键不只是模型规模本身，而在于能否让模型把更长的推理预算稳定转化为证明搜索、自我验证和论证修复能力。

论文链接：https://arxiv.org/abs/2605.13301

开源链接：https://github.com/Simplified-Reasoning/SU-01

一般尺寸模型，也能做奥赛级证明？

奥林匹克竞赛题一直是检验模型长程推理能力的硬场景。这类题目和常规数学问答不同，一个正确结论远远不够，模型还必须在很长的解题链路中持续管理假设、中间结论和边界情形，最终给出能够经受严格评分的完整证明或推导。隐藏的论证缺口、未覆盖的分类讨论、未经证明的关键引理，都可能让整题失分。

因此，在过去相当长一段时间里，人们很自然地把奥赛级推理和一个条件绑定在一起：更大的通用模型底座。这份报告想回答的正是这一问题：

奥赛级推理任务，是否必须依赖更大、更强的通用模型？

研究团队的选择相当克制：不引入外部工具，不执行代码，不依赖符号求解器。模型从构思、证明、检查到修正，全部在自然语言中完成。

这样一来，结果更直接地指向模型自身的能力：一个 30B-A3B 规模的模型，仅靠自然语言推理，能否承担奥赛级证明？

先教会模型严谨推理，再让它学会自我修正

团队提出的简洁统一方案可以概括为三个环节：监督微调塑造行为，强化学习提升解题能力，推理阶段扩展放大证明搜索。

图 1：方法框架，整体流程以 30B-A3B 推理主干为基础，通过监督微调、两阶段强化学习和推理阶段扩展，将模型塑造成能够进行证明搜索、自我验证和多轮修正的自然语言推理系统。

第一步是反向困惑度课程监督微调。研究团队从数学、科学、代码和指令跟随等来源构建长链路推理数据，并加入自验证、自修正样本，使模型学习如何组织证明、检查假设、定位漏洞并修复论证。训练过程中，样本按照初始模型困惑度从高到低排序：模型先接触与当前策略差异更大的证明轨迹，再逐步巩固更熟悉的样本。

换言之，SFT 阶段的目标并不是依靠海量数据直接堆高模型能力，而是更稳定地重塑模型的推理行为，使其形成严谨、可检查、可修正的长程推理模式。

第二步是两阶段强化学习。第一阶段使用可验证题目和可靠的结果奖励，高效提升模型的直接求解能力；第二阶段则进一步从「答案是否正确」转向「证明是否完整可靠」，引入证明质量奖励模型、自修正任务和经验回放机制。

其中，自修正任务让模型在看到自身不完整或存在漏洞的解答后，学习如何重新检查推理链条并生成更完整和严谨的修正版证明；经验回放机制则用于保留训练过程中少量但高价值的成功证明轨迹，避免这些在高难问题上偶然发现的有效解法被很快遗忘。

第三步在推理阶段扩展。面对奥赛难题，模型并不只生成一次答案，而是进入「生成候选解答 - 检查完整证明 - 定位问题 - 修正解答」的循环。这里扩展的不是外部工具链，而是模型自身的自然语言验证与修正计算。

10 万 token 级奥赛推理，不只是把答案写长

主题：模型|自然语言推理|通用模型|一个30B-A3B规模