ACL 2026综述:从事后解释到内生解释,大模型内生可解释性的前沿进展

论文链接:https://arxiv.org/pdf/2604.16042
github 链接:https://github.com/PKU-PILLAR-Group/Survey-Intrinsic-Interpretability-of-LLMs
这几年,大语言模型越来越强,但一个老问题始终没有消失:我们到底能不能真正理解它为什么这样回答、为什么这样推理,又为什么会在某些场景下犯错甚至失控?
过去,主流做法大多是 事 后解 释(post-hoc interpretability) 。也就是说,先训练出一个性能很强但内部复杂的模型,再用特征归因、探针、LogitLens、稀疏自编码器、因果干预等方法,从外部去分析它。这样的研究非常重要,也确实帮助我们看到了不少模型内部规律。但它有一个根本局限:很多解释并不是模型真实计算过程本身,而是对这个过程的近似、投影或重建。论文中将这种问题概括为解释与真实计算之间的忠实性差距 ( fidelity gap )。
也正因为如此,越来越多研究者开始把目光转向另一条路线: 内生可解释性(intrinsic interpretability) 。它追求的不是在模型训练完之后 “补一个解释器”,而是在模型结构、训练目标和信息流路径里,直接把可解释性嵌进去。换句话说,模型的 “解释” 不再是外挂,而是模型本身的一部分;这些可解释部件位于关键计算路径上,改动它们会直接影响模型输出。
从 “解释黑箱” 到 “设计玻璃箱”,这是大模型可解释性研究中一个正在形成的重要转向。图 1 对比了两种范式:post-hoc 是在模型外部加分析工具,intrinsic 则是把解释性直接做进模型结构与训练路径中。
我们最近的一篇综述论文 《 Towards Intrinsic Interpretability of Large Language Models: A Survey of Design Principles and Architectures 》 被 ACL 2026 Main Conference 接收。这篇工作想回答的核心问题其实很直接:如果说过去的大模型可解释性研究主要在努力 “看清黑箱”,那么现在,一个更值得关注的问题是 —— 我们能不能把黑箱直接改造成更接近 “玻璃箱” 的系统? 论文系统梳理了这一方向的代表方法,并将现有工作总结为五类核心设计范式。 图 2 内生可解释性的五类设计范式,全文最核心的一张总览图。
在这篇综述中,我们将现有方法概括为五条路线: 功能透明性(Functional Transparency) 、 概念对齐(Concept Alignment) 、 表征可分解性(Representational Decomposability) 、 显式模块化(Explicit Modularization) 以及 潜在稀疏性诱导(Latent Sparsity Induction) 。这五类方法并不是简单按模型家族来分,而是按 “解释性是如何被构造出来的” 来分。也就是说,我们更关心:解释性究竟被放在了模型的哪个层面,又通过什么机制进入了真实计算路径。
先看第一类, 功能透明性 。这类方法强调:模型内部的计算过程本身就应该具有清晰结构和明确语义,而不是完全由难以拆解的稠密变换组成。论文中提到,这一方向的代表包括广义加性模型 (GAM),以及后续一些希望让运算本身更可读的结构设计(NAM, SENN, KAN)。它们的共同点是尽量把 “模型在算什么” 写清楚,让每个部分承担更明确的功能。代价也很明显:结构越透明,往往越容易受到表达能力和训练效率上的限制。
第二类是 概念对齐 。如果说功能透明性强调 “算得清楚”,那概念对齐更强调 “想得明白”。这类方法希望让模型中的某些中间变量,直接对应到人类可以理解的概念,比如属性、症状、主题或语义类别。概念瓶颈模型(CBM)就是其中的代表:模型先预测概念,再基于概念做下游判断。这样的好处是,我们可以直接看到模型是否在概念层面出了问题;但难点在于,人类概念本身不一定完整,也不一定总适合复杂语言任务。论文将这种代价概括为对齐成本 (alignment tax):当我们强行让表示更贴近人类理解方式时,模型的自由表达空间可能会受到约束。
第三类是 表征可分解性 。这条路线关注的是隐藏表示本身的组织方式。很多标准神经网络的表示高度纠缠,不同语义因素混在一起,很难说清某个维度究竟在表示什么。于是,一些工作尝试把表示拆成更独立的子空间、离散码本或更可分离的组成部分,让不同语义因素尽量存在于各自的空间。例如 Backpack Language Models 会把预测拆成更可解释的组成部分,尽量分离词义表示与上下文加权作用;而像 CoCoMix 这样的工作,则进一步把更高层的语义概念显式融入生成过程。这类工作的核心目标都是降低语义纠缠,提高表示层面的可读性与可操控性。
第四类是 显式模块化 。这是近年来与大模型架构结合得最紧密的一条路线之一,最典型的实现载体就是专家混合模型 ( Mixture-of-Experts, MoE )。传统 MoE 更多是为了提升容量和效率,但论文指出,近来的不少工作开始把 “可解释性” 也纳入 MoE 的设计目标:例如,让 专家网络 更简单、更稀疏,或者让路由器的决策更具语义结构。这样一来,我们不只知道模型输出了什么,还能看到它调用了谁来完成这一步计算。
主题:模型