ICML 2026|只用少量Thinking Tokens,大模型依然能深度思考
近年来,Chain-of-Thought(CoT)推理已经成为提升大语言模型和多模态大语言模型复杂问题求解能力的重要技术路径。
然而,这种 “显式思考” 也带来了一个越来越突出的效率问题:模型往往需要生成大量的中间推理文本,导致推理 token 数显著增加,从而带来更高的推理延迟、显存占用和计算成本。尤其在多模态大模型(MLLMs)中,输入通常包含图像、问题和复杂上下文,模型为了完成推理,往往需要先描述图像内容、总结关键信息、分析视觉线索,再逐步推导最终答案。
这个过程虽然接近人类的 “逐步思考”,但对于大模型推理系统而言,每一个额外生成的 token 都意味着一次额外的自回归解码开销。因此,一个最关键的问题就是: 大模型的 “思考” 是否一定要以人类可读的长文本形式显式得生成出来 ?
近期,来自浙江大学、Adobe Research、杜克大学等机构的研究团队提出了一种面向多模态大模型的高效推理框架 —— Heima 。该方法将冗长的文本 CoT 压缩为少量抽象的 “thinking tokens”,让模型在隐空间中完成高效推理,在大幅减少生成 token 数量的同时,尽可能保留 CoT 推理带来的能力提升。更进一步,作者还构建了基于纯语言模型(LLMs)的解释器实验,对这些抽象的 “thinking tokens” 进行解码与重构,验证了隐藏空间中确实存在可被还原和分析的推理过程。该论文题为 Efficient Reasoning with Hidden Thinking,已被 ICML 2026 接收。
论文标题:Efficient Reasoning with Hidden Thinking
方法名称:Heima
会议:ICML 2026
代码:https://github.com/shawnricecake/Heima
本文第一作者沈轩现为浙江大学 “百人计划” 研究员,研究方向为高效人工智能,主要聚焦于大模型在 GPU、移动端、FPGA 和 ASIC 等多种硬件平台上的高效部署与推理加速,以及面向 AI 计算的计算机体系结构与系统优化设计。
背景挑战
CoT 推理的核心思想是让模型在回答问题前先生成中间的推理过程。例如,对于一道多模态问题,模型可能会依次生成:1. 对输入问题的总结;2. 对图像内容的描述;3. 对视觉线索和问题之间关系的分析;4. 最终答案。这种方式能够增强模型的可解释性,也能提升模型处理复杂任务的能力。然而,其代价也十分明显:模型需要生成大量额外的文本 token,导致推理成本变高。这些中间的 CoT 文本虽然对人类可读,但其中也存在大量冗余信息。
现有一些方法尝试在文本模型中进行 latent reasoning 或 CoT 压缩,但它们通常局限于小规模语言模型、文本任务或特定数据集。相比之下,多模态大模型需要同时处理视觉输入和语言输入,推理过程也更复杂,因此如何在 MLLM 中压缩 CoT,同时不破坏推理能力,仍然是一个开放问题。论文也指出,已有 latent reasoning 方法在小模型或文本任务上已有探索,但将 CoT 压缩扩展到大规模多模态大模型仍存在明显空白。
核心问题
本文探索的核心问题是:
能否让多模态大模型不再生成冗长的显式 CoT 文本,而是用少量隐式 thinking tokens 来完成推理?
这背后其实有一个很有意思的判断:人类写出来的推理文本,未必是模型内部 “思考” 的唯一形式。对于模型而言,中间推理过程也许可以被压缩为更抽象、更紧凑的隐空间表示。只要这些表示能够保留对最终答案有用的信息,模型就不一定需要完整输出所有的推理文本。因此,Heima 的目标不是简单地 “删除” CoT,而是尝试把原本冗长的 CoT 推理过程压缩进少量特殊 token 中,让模型仍然具备逐步推理能力,但避免在推理时生成大量自然语言中间步骤。这就类似于把 “写满一整页的草稿纸” 压缩成几个模型内部能理解的思考符号:虽然人类可能看不懂这些符号,但模型可以用它们进行推理并给出答案。
方法概览
为了解决上述问题,本文提出了 Heima,一个面向多模态大模型的 CoT 压缩与隐式推理框架。论文摘要中将 Heima 描述为一种有效的 CoT compression framework,能够把长 CoT 压缩成少量抽象的 thinking tokens,同时保留关键推理信息并去除冗余。整体来看,Heima 包含三个关键设计:
1. 用 thinking token 替代冗长 CoT
传统 CoT 方法会让模型显式生成完整的中间推理文本。例如,针对一张汽车图片以及问题 “这辆车属于哪个品牌?有哪些视觉特征可以支持这一判断?”,模型可能会先逐步描述图像内容,再基于视觉线索进行推断: