登录

CVPR 2026:深度学习的「标准件」,正在被逐个拆掉


速读:最先被质疑的标准件,是那些看起来最"技术性"的,比如说,浮点精度的矩阵乘法,和针对不同架构手工调参的量化策略。 CVPR2026:深度学习的「标准件」,正在被逐个拆掉2026年06月04日18:06雷锋网注意力的浮点精度不是必须的,归一化流的"精确可逆"是可以放弃的……。 于是,一批施工队同时进场,对准这些标准件开刀。 有的在楼体外墙动手,拆掉了那些只用来装饰的预制板——那是推理端的精度和定制策略。
2026年06月04日 18:06

注意力的浮点精度不是必须的,归一化流的"精确可逆"是可以放弃的……

    作者丨马晓宁

    编辑丨岑   峰

这里有一幢大楼,叫做深度学习。

过去几年,人们不停地给它加盖、扩建,越盖越高,越盖越复杂。这幢大楼叫 Transformer。盖楼时用了一大批标准件,浮点精度是它的钢筋,层归一化和残差连接是它的混凝土,因果掩码是它的承重隔断。旁边还有两栋附楼:一栋是扩散模型;另一栋归一化流。在漫长的施工期里,人们不断加装更粗的钢筋、更复杂的控制系统,以为这样做就能让这几栋楼更稳固高大美观。但是这样真的是对的吗?

可现在,这些施工的收益越来越小,而有人在附楼里试出了更好的新零件,量化、去噪、可逆约束都有了更轻便的替代品。于是,一批施工队同时进场,对准这些标准件开刀。他们不是来修修补补的,而是问一个更根本的问题:这根柱子、这面墙、这套管道,到底是真承重,还是只因为一直在那儿所以没人动?

更有意思的是,五支施工队去了不同的楼层。有的在楼体外墙动手,拆掉了那些只用来装饰的预制板——那是推理端的精度和定制策略。有的钻进设备层,重新铺设了管线——那是训练目标的参数化方式。还有的直接下到地下室,对着地基里的钢筋动起了大锤——那是归一化层和可逆性约束。把它们放在一起看,你会发现一条清晰的递进线:深度学习的"标准件"正在从外围到核心,被逐个拆掉。

01

从推理端开刀:

精度和定制策略,不是必须的

最先被质疑的标准件,是那些看起来最"技术性"的,比如说,浮点精度的矩阵乘法,和针对不同架构手工调参的量化策略。这些因为不涉及“模型为什么能work”的核心设计哲学,看起来只是优化效率、节省算力,所以最容易被人当成“普通的工程优化”。

但 CVPR 2026 的这两篇论文告诉我们,远不止"模型可以更省"这么简单。

▎ BinaryAttention:1-bit 注意力,比全精度还能打

Transformer 的注意力模块一直是算力黑洞。Query 和 Key 做矩阵乘法,计算量随序列长度平方增长,在高分辨率视觉任务和多步扩散生成里尤其要命。普通工程优化的逻辑:第一步是 FlashAttention,用 IO 优化把访存瓶颈拆掉;第二步是量化,把 FP32 压成 INT8、INT4,低比特框架内,精度降了,但总算还能用。

再往下压,就要把 Q 和 K 压成只有正负两种状态的 1-bit。这条路几乎没人敢走。直觉上太反常识了:一个连续实数变成一个正负号,信息损失那么大,注意力还能算对吗?

BinaryAttention 给出的答案是:不仅算得对,还能算得更快。

这篇来自 Chaodong Xiao、Zhengqiang Zhang 和 Lei Zhang 的论文,首先从理论上论证了一个关键命题——注意力机制的核心逻辑是计算 Q 和 K 之间的相似度关系,而这个相似度关系在二值化之后依然能被有效保留。

换句话说,"这两个位置相关不相关"这件事,不需要精确到小数点后几位,一个正负号就能捕捉到最核心的信息。基于这个理论支撑,BinaryAttention 只保留 Q 和 K 的符号,将传统浮点矩阵乘法替换为 XNOR 加 popcount 的位运算,从根本上改变了注意力的计算方式。

当然,1-bit 量化带来的信息损失是客观存在的。为了弥补这一点,论文引入了可学习的偏置项进行补偿,同时采用量化感知训练让模型学会"用 1-bit 思考",并用自蒸馏技术以全精度模型为教师,确保量化后的符号相似性与全精度保持一致。

整个设计支持端到端的前向传播加速,不需要额外的推理步骤。实验结果令人意外:在 A100 GPU 上,BinaryAttention 比 FlashAttention2 快 2 倍以上,而在视觉和扩散 Transformer 的广泛基准测试中,1-bit 注意力不仅能维持精度,在部分任务上甚至超过了全精度版本。

这篇论文打破了"低比特必然牺牲精度"的行业常识,把“量化”从一个工程压缩问题,提升到了“重新发现计算本质”的理论层面。

arXiv 论文页面: https://arxiv.org/abs/2603.09582

项目代码仓库: EdwardChasel/BinaryAttention

▎ SegQuant:量化不需要给每个模型单独开药方

另一篇论文中,SegQuant 挑战了另一个标准件:量化策略必须针对每个架构手工定制。

在深度学习领域,如果你要对一个模型做量化(比如把32位浮点数压缩成8位或4位整数),那么你几乎必须针对这个模型的具体架构,手工去调整量化参数(比如每一层的缩放因子、零点位置、位宽分配等)。不同架构差异越大,手工调参的工作量就越重。

而扩散模型这个领域,SDXL、DiT、PixArt等模型架构变得非常多样且差异巨大,让这个问题雪上加霜。给一个模型调参之后,换个模型就得重新来一遍。更麻烦的是,这些方法通常依赖大量人工设定的启发式规则,和主流工业部署工具也不兼容,想真正把量化塞进生产线,门槛极高。

浙大 OptiSys 团队提出的 SegQuant,核心思路是让量化策略从模型的计算图里自动"读"出来,而不是靠人工拍脑袋。SegQuant 由两个组件构成:SegLinear 和 DualScale。

主题:精度|注意力|浮点精度|被逐个拆掉|精度和定制策略