登录

AI真能学会心算?隐式思维链首次得到理论证明,Stuart Russell参与


速读:过去一年,AI推理模型的使用成本让不少开发者叫苦。 对于当前最先进的推理模型,这个数字往往是几百到几千。 但无论架构如何优化,只要思维链(Chain-of-Thought,CoT)的中间步骤仍然以token形式逐个生成,推理延迟就有着根本性的下限。 近期,有一些新技术确实让人们看到了压低推理成本的可能性。 ICoT的想法是:能不能训练模型把中间步骤「内化」到隐藏状态里,最终推理时只输出答案,中间步骤完全不可见?
2026年06月07日 11:3

编辑|Panda

过去一年,AI 推理模型的使用成本让不少开发者叫苦。

「慢思考」模型在处理数学、代码、逻辑题时确实表现惊艳,但代价是每次调用都会生成几百乃至几千个「思考 token」。这些 token 现在答案之前,是模型一步步演算的草稿纸。这些草稿可见,但昂贵。一道复杂数学题,光是「思考过程」就可能消耗掉普通对话十倍以上的计算资源。

思考模式下,即使简单交流也费 token 思考模式下,即使简单交流也费 token 近期,有一些新技术确实让人们看到了压低推理成本的可能性。但无论架构如何优化,只要思维链(Chain-of-Thought,CoT)的中间步骤仍然以 token 形式逐个生成,推理延迟就有着根本性的下限。每一步都必须在上一步完成之后才能开始,推理链有多长,等待时间就有多长。

这是一个结构性问题,不是工程问题。

那么,有没有可能让模型「把草稿藏进大脑」,在不输出任何中间步骤的情况下,仍然保留显式思维链带来的推理能力?

这正是「 隐式 思维链 (Implicit Chain-of-Thought,ICoT) 」想要解决的事情。而就在前些天,来自 UC Berkeley 和普林斯顿大学的研究团队,在这个问题上迈出了关键一步。他们不仅给出了方案,还在数学上严格证明了它有效。

论文标题:Transformers Provably Learn to Internalize Chain-of-Thought

论文地址:https://arxiv.org/abs/2605.28600v1

这项研究的主要作者来自 UC 伯克利和普林斯顿大学,一作是伯克利博士生黄一笑(Yixiao Huang),指导教授包括 Jiantao Jiao、Stuart Russell、Somayeh Sojoudi 和 Song Mei。

这个团队近年来在用数学方法解析 Transformer 训练机制上发表了一系列工作,涵盖从注意力模式的形成到多步推理的优化动态。此次关于 ICoT 的研究,是他们将理论工具系统延伸至「隐式推理」这一新领域的尝试。

思维链的代价

要理解这项研究的意义,需要先弄清楚思维链究竟贵在哪里。

可以打个比方,假如你在辅导一个学生做多位数乘法。一种方法是让他把每一步运算都写在纸上,一行一行地算:先算各位,再算十位,最后相加。这就是显式思维链 —— 每个中间结果都可见,也因此可以被检验和纠错。另一种方法是让他「在脑子里算」,直接报出最终答案。

这两种方式在信息处理上有本质差别。前者是串行的:每一步依赖上一步的结果,无法并行。后者则不然 —— 如果大脑能一次性处理所有中间计算,答案可以几乎同时得出。

对于 LLM,这个差别直接体现在推理延迟和 token 消耗上。显式思维链要求模型逐个生成每个中间 token,推理链有 k 步,就需要输出至少 k 个额外 token,而且这些 token 必须严格串行生成。对于当前最先进的推理模型,这个数字往往是几百到几千。

ICoT 的想法是:能不能训练模型把中间步骤「内化」到隐藏状态里,最终推理时只输出答案,中间步骤完全不可见?

这个想法本身并不新鲜。Yuntian Deng 等人在 2024 年的论文《From Explicit CoT to Implicit CoT: Learning to Internalize CoT Step by Step》就提出了一种训练方法: 先让模型学会用完整思维链作答,然后一步一步地把中间 token「藏起来」,每次少一个,让模型逐渐习惯在更少的可见线索下完成推理。 这种方式在实验中有效,但有一个明显缺陷:如果思维链有 k 步,就需要 k-1 个训练阶段,训练开销随推理链长度线性增长。

更根本的问题是:没有人知道这为什么有效。理论上能不能保证 ICoT 学到的东西与显式 CoT 等价?在什么条件下保证?这些问题悬而未决。

核心创新:用树状结构重新设计训练课程

这篇论文的核心贡献有两个层面:一个新的训练方法,以及针对该方法的第一个严格数学证明。

研究的实验平台是「k-奇偶校验」(k-parity)问题,这是一个在理论计算机科学中经典的测试床。

给定 n 个比特,从中选 k 个,判断它们的乘积是 +1 还是 -1。这个问题的特点是:没有中间步骤,任何有限精度的梯度下降算法,用多项式数量的样本,都无法以非平凡精度求解。但一旦提供完整的思维链辅助,即便是单层 Transformer 也能高效学会。这个对比,让它成为研究 CoT 作用机制的理想沙盘。

关键洞察:思维链的结构其实是一棵树。

k 个比特的奇偶校验,可以分解为一棵深度为 log₂k 的二叉树。叶节点是原始输入比特,每个内部节点计算其两个子节点的乘积,一路递推到根节点得到最终答案。这棵树的结构,决定了中间步骤的层级关系:第一层计算两两乘积,第二层计算两个第一层结果的乘积,依此类推。

标准 ICoT 方法一次只藏一个 token,完全不利用这棵树的结构。而这篇论文提出的「Log-ICoT」,则一次性藏掉树的整整一层。这意味着:原来需要 k-1 个训练阶段,现在只需要 log₂k 个。对于 k=16,这意味着从 15 个阶段缩减为 4 个。

这不仅仅是工程上的效率提升。更重要的是,它让训练过程与模型内部的层级结构对齐 —— 每一个 Transformer 层,恰好负责吸收思维链树的一个层级。

主题:研究