登录

3 B小模型,编程得分比肩Opus 4.5,神秘模型引发热议,原是国产


速读:最近几天,一个3B的小模型在X上火了,因为在一些难度可验证的推理任务上(比如编程),它进入了Gemini3Pro、GPT-5high、ClaudeOpus4.5、GLM-5、KimiK2.5等前沿模型的性能区间,而它的体积远小于这些模型。 强化学习依次应用于数学、编程和STEM推理任务。 从数学、编程和STEMRL检查点筛选和提炼高质量轨迹,最终形成统一的学生模型。 在最近的一个帖子中,知名AI研究者和博主SebastianRaschka系统总结了VibeThinker-3B技术报告中披露的要点,包括以下几条:。
2026年06月17日 19:3

编辑|张倩

最近几天,一个 3B 的小模型在 X 上火了,因为在一些难度可验证的推理任务上(比如编程),它进入了 Gemini 3 Pro、GPT-5 high、Claude Opus 4.5、GLM-5、Kimi K2.5 等前沿模型的性能区间,而它的体积远小于这些模型。

这个模型名叫 VibeThinker-3B,是一个拥有 30 亿参数的密集推理模型,旨在探索在严格的小模型规模下,可验证推理能力能被推进到何种程度。

模型发布后,很多人都被它的成绩惊艳到了,表示要上手一试。

值得注意的是,它还是一个国产模型,来自新浪微博团队。

技术报告显示,该模型专为具有可靠验证信号的任务而设计,包括数学推理、竞技编程、STEM 推理以及带有明确约束的指令执行。

因此,它在各项基准测试中均表现出色 。其在 AIME26 测试中获得 94.3 分 ,在 HMMT25 测试中获得 89.3 分 ,在 LiveCodeBench v6 测试中获得 80.2 分(Pass@1),并且在 2026 年 4 月 25 日至 5 月 31 日期间 LeetCode 最新未公开的周赛和双周赛中取得了 96.1% 的通过率。

这个模型是怎么训练的?技术报告揭示了一些细节。

首先,它基于 Qwen2.5-Coder-3B 构建,并采用升级版 Spectrum-to-Signal 流程进行后训练。该流程在监督微调(SFT)中加强了数据合成、质量过滤和课程学习,将 MGPO 风格的强化学习扩展到多个可验证领域,保留了完整的长上下文推理轨迹,并通过离线自蒸馏和指令强化学习(Instruct RL)来巩固各项能力。

VibeThinker-3B 整体训练流程 VibeThinker-3B 整体训练流程 Spectrum-to-Signal 流程。 Spectrum-to-Signal 流程。 此外,VibeThinker-3B 还引入了 Claim-Level 可靠性评估(CLR),这是一种面向答案可验证推理的测试时 scaling 策略。CLR 进一步提升了数学基准测试的性能,将 AIME26 从 94.3 提高到 97.1,HMMT25 从 89.3 提高到 95.4,并将 BruMO25 提升至 99.2。

其具体训练流程如下:

基于课程的两阶段 SFT。第一阶段侧重于数学、编程、STEM 推理、一般对话和指令遵循等方面的广泛能力覆盖。第二阶段转向难度更高、视野更广阔的推理样本。多样性探索蒸馏用于保留多个有效的解决方案路径。

多领域推理强化学习。VibeThinker-3B 重用了 MGPO。强化学习依次应用于数学、编程和 STEM 推理任务。训练使用单个 64K 长上下文窗口来保留完整的长时域推理轨迹。

离线自蒸馏。从数学、编程和 STEM RL 检查点筛选和提炼高质量轨迹,最终形成统一的学生模型。学习潜力评分用于优先考虑那些正确但学生尚未很好地模仿的轨迹。

Instruct RL。最后阶段提高了面向用户的提示的可控性。对于格式敏感且开放式的教学数据,采用基于规则的验证器和基于评分标准的奖励模型。

在最近的一个帖子中,知名 AI 研究者和博主 Sebastian Raschka 系统总结了 VibeThinker-3B 技术报告中披露的要点,包括以下几条:

主题:模型|编程|VibeThinker-3B|小模型