AI真能学会心算？隐式思维链首次得到理论证明，Stuart Russell参与

速读：过去一年，AI推理模型的使用成本让不少开发者叫苦。对于当前最先进的推理模型，这个数字往往是几百到几千。但无论架构如何优化，只要思维链（Chain-of-Thought，CoT）的中间步骤仍然以token形式逐个生成，推理延迟就有着根本性的下限。近期，有一些新技术确实让人们看到了压低推理成本的可能性。 ICoT的想法是：能不能训练模型把中间步骤「内化」到隐藏状态里，最终推理时只输出答案，中间步骤完全不可见？

2026年06月07日 11:3

编辑｜Panda

过去一年，AI 推理模型的使用成本让不少开发者叫苦。

「慢思考」模型在处理数学、代码、逻辑题时确实表现惊艳，但代价是每次调用都会生成几百乃至几千个「思考 token」。这些 token 现在答案之前，是模型一步步演算的草稿纸。这些草稿可见，但昂贵。一道复杂数学题，光是「思考过程」就可能消耗掉普通对话十倍以上的计算资源。

思考模式下，即使简单交流也费 token 近期，有一些新技术确实让人们看到了压低推理成本的可能性。但无论架构如何优化，只要思维链（Chain-of-Thought，CoT）的中间步骤仍然以 token 形式逐个生成，推理延迟就有着根本性的下限。每一步都必须在上一步完成之后才能开始，推理链有多长，等待时间就有多长。

这是一个结构性问题，不是工程问题。

那么，有没有可能让模型「把草稿藏进大脑」，在不输出任何中间步骤的情况下，仍然保留显式思维链带来的推理能力？

这正是「隐式思维链（Implicit Chain-of-Thought，ICoT）」想要解决的事情。而就在前些天，来自 UC Berkeley 和普林斯顿大学的研究团队，在这个问题上迈出了关键一步。他们不仅给出了方案，还在数学上严格证明了它有效。

论文标题：Transformers Provably Learn to Internalize Chain-of-Thought

论文地址：https://arxiv.org/abs/2605.28600v1

这项研究的主要作者来自 UC 伯克利和普林斯顿大学，一作是伯克利博士生黄一笑（Yixiao Huang），指导教授包括 Jiantao Jiao、Stuart Russell、Somayeh Sojoudi 和 Song Mei。

这个团队近年来在用数学方法解析 Transformer 训练机制上发表了一系列工作，涵盖从注意力模式的形成到多步推理的优化动态。此次关于 ICoT 的研究，是他们将理论工具系统延伸至「隐式推理」这一新领域的尝试。

思维链的代价

要理解这项研究的意义，需要先弄清楚思维链究竟贵在哪里。

可以打个比方，假如你在辅导一个学生做多位数乘法。一种方法是让他把每一步运算都写在纸上，一行一行地算：先算各位，再算十位，最后相加。这就是显式思维链 —— 每个中间结果都可见，也因此可以被检验和纠错。另一种方法是让他「在脑子里算」，直接报出最终答案。

这两种方式在信息处理上有本质差别。前者是串行的：每一步依赖上一步的结果，无法并行。后者则不然 —— 如果大脑能一次性处理所有中间计算，答案可以几乎同时得出。

对于 LLM，这个差别直接体现在推理延迟和 token 消耗上。显式思维链要求模型逐个生成每个中间 token，推理链有 k 步，就需要输出至少 k 个额外 token，而且这些 token 必须严格串行生成。对于当前最先进的推理模型，这个数字往往是几百到几千。

ICoT 的想法是：能不能训练模型把中间步骤「内化」到隐藏状态里，最终推理时只输出答案，中间步骤完全不可见？

这个想法本身并不新鲜。Yuntian Deng 等人在 2024 年的论文《From Explicit CoT to Implicit CoT: Learning to Internalize CoT Step by Step》就提出了一种训练方法：先让模型学会用完整思维链作答，然后一步一步地把中间 token「藏起来」，每次少一个，让模型逐渐习惯在更少的可见线索下完成推理。这种方式在实验中有效，但有一个明显缺陷：如果思维链有 k 步，就需要 k-1 个训练阶段，训练开销随推理链长度线性增长。

更根本的问题是：没有人知道这为什么有效。理论上能不能保证 ICoT 学到的东西与显式 CoT 等价？在什么条件下保证？这些问题悬而未决。

核心创新：用树状结构重新设计训练课程

这篇论文的核心贡献有两个层面：一个新的训练方法，以及针对该方法的第一个严格数学证明。

研究的实验平台是「k-奇偶校验」（k-parity）问题，这是一个在理论计算机科学中经典的测试床。

给定 n 个比特，从中选 k 个，判断它们的乘积是 +1 还是 -1。这个问题的特点是：没有中间步骤，任何有限精度的梯度下降算法，用多项式数量的样本，都无法以非平凡精度求解。但一旦提供完整的思维链辅助，即便是单层 Transformer 也能高效学会。这个对比，让它成为研究 CoT 作用机制的理想沙盘。

关键洞察：思维链的结构其实是一棵树。

k 个比特的奇偶校验，可以分解为一棵深度为 log₂k 的二叉树。叶节点是原始输入比特，每个内部节点计算其两个子节点的乘积，一路递推到根节点得到最终答案。这棵树的结构，决定了中间步骤的层级关系：第一层计算两两乘积，第二层计算两个第一层结果的乘积，依此类推。

标准 ICoT 方法一次只藏一个 token，完全不利用这棵树的结构。而这篇论文提出的「Log-ICoT」，则一次性藏掉树的整整一层。这意味着：原来需要 k-1 个训练阶段，现在只需要 log₂k 个。对于 k=16，这意味着从 15 个阶段缩减为 4 个。

这不仅仅是工程上的效率提升。更重要的是，它让训练过程与模型内部的层级结构对齐 —— 每一个 Transformer 层，恰好负责吸收思维链树的一个层级。

主题：研究