ACL 2026综述：从事后解释到内生解释，大模型内生可解释性的前沿进展

速读：ACL2026综述：从事后解释到内生解释，大模型内生可解释性的前沿进展2026年04月30日12:50机器之心Pro论文链接：https:。

2026年04月30日 12:5

论文链接：https://arxiv.org/pdf/2604.16042

github 链接：https://github.com/PKU-PILLAR-Group/Survey-Intrinsic-Interpretability-of-LLMs

这几年，大语言模型越来越强，但一个老问题始终没有消失：我们到底能不能真正理解它为什么这样回答、为什么这样推理，又为什么会在某些场景下犯错甚至失控？

过去，主流做法大多是事后解释（post-hoc interpretability）。也就是说，先训练出一个性能很强但内部复杂的模型，再用特征归因、探针、LogitLens、稀疏自编码器、因果干预等方法，从外部去分析它。这样的研究非常重要，也确实帮助我们看到了不少模型内部规律。但它有一个根本局限：很多解释并不是模型真实计算过程本身，而是对这个过程的近似、投影或重建。论文中将这种问题概括为解释与真实计算之间的忠实性差距 ( fidelity gap )。

也正因为如此，越来越多研究者开始把目光转向另一条路线：内生可解释性（intrinsic interpretability）。它追求的不是在模型训练完之后 “补一个解释器”，而是在模型结构、训练目标和信息流路径里，直接把可解释性嵌进去。换句话说，模型的 “解释” 不再是外挂，而是模型本身的一部分；这些可解释部件位于关键计算路径上，改动它们会直接影响模型输出。

从 “解释黑箱” 到 “设计玻璃箱”，这是大模型可解释性研究中一个正在形成的重要转向。图 1 对比了两种范式：post-hoc 是在模型外部加分析工具，intrinsic 则是把解释性直接做进模型结构与训练路径中。

我们最近的一篇综述论文《 Towards Intrinsic Interpretability of Large Language Models: A Survey of Design Principles and Architectures 》被 ACL 2026 Main Conference 接收。这篇工作想回答的核心问题其实很直接：如果说过去的大模型可解释性研究主要在努力 “看清黑箱”，那么现在，一个更值得关注的问题是 —— 我们能不能把黑箱直接改造成更接近 “玻璃箱” 的系统？论文系统梳理了这一方向的代表方法，并将现有工作总结为五类核心设计范式。图 2 内生可解释性的五类设计范式，全文最核心的一张总览图。

在这篇综述中，我们将现有方法概括为五条路线：功能透明性（Functional Transparency）、概念对齐（Concept Alignment）、表征可分解性（Representational Decomposability）、显式模块化（Explicit Modularization）以及潜在稀疏性诱导（Latent Sparsity Induction）。这五类方法并不是简单按模型家族来分，而是按 “解释性是如何被构造出来的” 来分。也就是说，我们更关心：解释性究竟被放在了模型的哪个层面，又通过什么机制进入了真实计算路径。

先看第一类，功能透明性。这类方法强调：模型内部的计算过程本身就应该具有清晰结构和明确语义，而不是完全由难以拆解的稠密变换组成。论文中提到，这一方向的代表包括广义加性模型（GAM），以及后续一些希望让运算本身更可读的结构设计（NAM， SENN， KAN）。它们的共同点是尽量把 “模型在算什么” 写清楚，让每个部分承担更明确的功能。代价也很明显：结构越透明，往往越容易受到表达能力和训练效率上的限制。

第二类是概念对齐。如果说功能透明性强调 “算得清楚”，那概念对齐更强调 “想得明白”。这类方法希望让模型中的某些中间变量，直接对应到人类可以理解的概念，比如属性、症状、主题或语义类别。概念瓶颈模型（CBM）就是其中的代表：模型先预测概念，再基于概念做下游判断。这样的好处是，我们可以直接看到模型是否在概念层面出了问题；但难点在于，人类概念本身不一定完整，也不一定总适合复杂语言任务。论文将这种代价概括为对齐成本（alignment tax）：当我们强行让表示更贴近人类理解方式时，模型的自由表达空间可能会受到约束。

第三类是表征可分解性。这条路线关注的是隐藏表示本身的组织方式。很多标准神经网络的表示高度纠缠，不同语义因素混在一起，很难说清某个维度究竟在表示什么。于是，一些工作尝试把表示拆成更独立的子空间、离散码本或更可分离的组成部分，让不同语义因素尽量存在于各自的空间。例如 Backpack Language Models 会把预测拆成更可解释的组成部分，尽量分离词义表示与上下文加权作用；而像 CoCoMix 这样的工作，则进一步把更高层的语义概念显式融入生成过程。这类工作的核心目标都是降低语义纠缠，提高表示层面的可读性与可操控性。

第四类是显式模块化。这是近年来与大模型架构结合得最紧密的一条路线之一，最典型的实现载体就是专家混合模型（ Mixture-of-Experts， MoE ）。传统 MoE 更多是为了提升容量和效率，但论文指出，近来的不少工作开始把 “可解释性” 也纳入 MoE 的设计目标：例如，让专家网络更简单、更稀疏，或者让路由器的决策更具语义结构。这样一来，我们不只知道模型输出了什么，还能看到它调用了谁来完成这一步计算。

主题：模型