CVPR 2026：深度学习的「标准件」，正在被逐个拆掉

速读：最先被质疑的标准件，是那些看起来最"技术性"的，比如说，浮点精度的矩阵乘法，和针对不同架构手工调参的量化策略。 CVPR2026：深度学习的「标准件」，正在被逐个拆掉2026年06月04日18:06雷锋网注意力的浮点精度不是必须的，归一化流的"精确可逆"是可以放弃的……。于是，一批施工队同时进场，对准这些标准件开刀。有的在楼体外墙动手，拆掉了那些只用来装饰的预制板——那是推理端的精度和定制策略。

2026年06月04日 18:06

注意力的浮点精度不是必须的，归一化流的"精确可逆"是可以放弃的……

作者丨马晓宁

编辑丨岑峰

这里有一幢大楼，叫做深度学习。

过去几年，人们不停地给它加盖、扩建，越盖越高，越盖越复杂。这幢大楼叫 Transformer。盖楼时用了一大批标准件，浮点精度是它的钢筋，层归一化和残差连接是它的混凝土，因果掩码是它的承重隔断。旁边还有两栋附楼：一栋是扩散模型；另一栋归一化流。在漫长的施工期里，人们不断加装更粗的钢筋、更复杂的控制系统，以为这样做就能让这几栋楼更稳固高大美观。但是这样真的是对的吗？

可现在，这些施工的收益越来越小，而有人在附楼里试出了更好的新零件，量化、去噪、可逆约束都有了更轻便的替代品。于是，一批施工队同时进场，对准这些标准件开刀。他们不是来修修补补的，而是问一个更根本的问题：这根柱子、这面墙、这套管道，到底是真承重，还是只因为一直在那儿所以没人动？

更有意思的是，五支施工队去了不同的楼层。有的在楼体外墙动手，拆掉了那些只用来装饰的预制板——那是推理端的精度和定制策略。有的钻进设备层，重新铺设了管线——那是训练目标的参数化方式。还有的直接下到地下室，对着地基里的钢筋动起了大锤——那是归一化层和可逆性约束。把它们放在一起看，你会发现一条清晰的递进线：深度学习的"标准件"正在从外围到核心，被逐个拆掉。

从推理端开刀：

精度和定制策略，不是必须的

最先被质疑的标准件，是那些看起来最"技术性"的，比如说，浮点精度的矩阵乘法，和针对不同架构手工调参的量化策略。这些因为不涉及“模型为什么能work”的核心设计哲学，看起来只是优化效率、节省算力，所以最容易被人当成“普通的工程优化”。

但 CVPR 2026 的这两篇论文告诉我们，远不止"模型可以更省"这么简单。

▎ BinaryAttention：1-bit 注意力，比全精度还能打

Transformer 的注意力模块一直是算力黑洞。Query 和 Key 做矩阵乘法，计算量随序列长度平方增长，在高分辨率视觉任务和多步扩散生成里尤其要命。普通工程优化的逻辑：第一步是 FlashAttention，用 IO 优化把访存瓶颈拆掉；第二步是量化，把 FP32 压成 INT8、INT4，低比特框架内，精度降了，但总算还能用。

再往下压，就要把 Q 和 K 压成只有正负两种状态的 1-bit。这条路几乎没人敢走。直觉上太反常识了：一个连续实数变成一个正负号，信息损失那么大，注意力还能算对吗？

BinaryAttention 给出的答案是：不仅算得对，还能算得更快。

这篇来自 Chaodong Xiao、Zhengqiang Zhang 和 Lei Zhang 的论文，首先从理论上论证了一个关键命题——注意力机制的核心逻辑是计算 Q 和 K 之间的相似度关系，而这个相似度关系在二值化之后依然能被有效保留。

换句话说，"这两个位置相关不相关"这件事，不需要精确到小数点后几位，一个正负号就能捕捉到最核心的信息。基于这个理论支撑，BinaryAttention 只保留 Q 和 K 的符号，将传统浮点矩阵乘法替换为 XNOR 加 popcount 的位运算，从根本上改变了注意力的计算方式。

当然，1-bit 量化带来的信息损失是客观存在的。为了弥补这一点，论文引入了可学习的偏置项进行补偿，同时采用量化感知训练让模型学会"用 1-bit 思考"，并用自蒸馏技术以全精度模型为教师，确保量化后的符号相似性与全精度保持一致。

整个设计支持端到端的前向传播加速，不需要额外的推理步骤。实验结果令人意外：在 A100 GPU 上，BinaryAttention 比 FlashAttention2 快 2 倍以上，而在视觉和扩散 Transformer 的广泛基准测试中，1-bit 注意力不仅能维持精度，在部分任务上甚至超过了全精度版本。

这篇论文打破了"低比特必然牺牲精度"的行业常识，把“量化”从一个工程压缩问题，提升到了“重新发现计算本质”的理论层面。

arXiv 论文页面： https://arxiv.org/abs/2603.09582

项目代码仓库： EdwardChasel/BinaryAttention

▎ SegQuant：量化不需要给每个模型单独开药方

另一篇论文中，SegQuant 挑战了另一个标准件：量化策略必须针对每个架构手工定制。

在深度学习领域，如果你要对一个模型做量化（比如把32位浮点数压缩成8位或4位整数），那么你几乎必须针对这个模型的具体架构，手工去调整量化参数（比如每一层的缩放因子、零点位置、位宽分配等）。不同架构差异越大，手工调参的工作量就越重。

而扩散模型这个领域，SDXL、DiT、PixArt等模型架构变得非常多样且差异巨大，让这个问题雪上加霜。给一个模型调参之后，换个模型就得重新来一遍。更麻烦的是，这些方法通常依赖大量人工设定的启发式规则，和主流工业部署工具也不兼容，想真正把量化塞进生产线，门槛极高。

浙大 OptiSys 团队提出的 SegQuant，核心思路是让量化策略从模型的计算图里自动"读"出来，而不是靠人工拍脑袋。SegQuant 由两个组件构成：SegLinear 和 DualScale。

主题：精度|注意力|浮点精度|被逐个拆掉|精度和定制策略