CVPR 2026模型适应性研究盘点:从保留旧知识,到适应真实世界
稳定性,正在成为大模型落地的关键命题。
作者丨郑佳美
编辑丨马晓宁
当 AI 模型从“单次完成任务”走向真实世界部署时,真正的挑战不再只是参数规模和单点性能,而是模型能否在变化中保持稳定。
它要在持续出现的新类别中不遗忘旧知识,要从大规模真实数据中获得更强的泛化能力,要在多客户端、数据分布不断变化的环境下继续学习,也要把图像、视频和 3D 等不同视觉经验组织成统一理解。
这种变化也体现在 CVPR 2026 的相关研究趋势中。越来越多工作不再只追求某个单一任务上的性能提升,而是更关注模型在长期学习、真实数据、分布变化和多模态协同中的稳定性与适应能力。换句话说,模型不仅要“会做”,还要能在复杂环境中持续做得好。
这一趋势背后,反映的是大模型研究正在从“能力扩张”进入“能力管理”阶段。模型不仅要学得多,还要知道哪些旧知识值得保留,哪些经验可以迁移,哪些特征需要对齐,哪些模态能够互相补充。
无论是持续学习、数字人建模、联邦学习,还是统一大视觉模型,研究者真正关心的都是同一个问题:如何让 AI 在复杂、动态、不完整的现实环境中,依然保持可泛化、可适应、可协同和可持续进化的能力。
01
从样本回放到跨视觉协同
《Quantum-Gated Task-interaction Knowledge Distillation for Pre-trained Model-based Class-Incremental Learning》关注的是基于预训练模型的类增量学习问题,相关研究来自北京邮电大学信息与通信工程学院和教育部信息网络工程研究中心。
论文主要研究如何让模型在不断学习新类别的同时,尽量保留旧类别知识,减少灾难性遗忘。类增量学习的难点在于,模型会按任务顺序不断接触新类别,但测试时通常不知道样本来自哪个任务。
随着任务数量增加,不同任务的特征空间可能发生重叠,新任务学习容易覆盖旧任务知识,导致模型对旧类别识别能力下降。
近年来,基于预训练模型的类增量学习方法通常会冻结主干网络,只训练轻量级的 prompt 或 adapter 模块,以降低训练成本并保持基础表示能力。
但论文指出,现有方法往往缺少明确的任务交互机制:prompt 选择容易受相似度噪声影响,adapter 又常常把不同任务看成彼此独立的子空间,难以判断新样本应该借用哪些旧任务知识。
针对这一问题,论文提出了 QKD,也就是 Quantum-Gated Task-interaction Knowledge Distillation。它的核心思路是用量子门控机制来建模样本与不同任务之间的相关性,再根据这种相关性指导知识蒸馏和推理时的 adapter 融合。
简单来说,模型不仅要学习新任务,还要判断哪些旧任务和当前样本更相关,从而有选择地吸收旧知识,减少无关任务带来的干扰。
方法上,论文先为每个任务构建 task embedding,并通过参数化量子电路把样本特征和任务表示映射到更高维的 Hilbert 空间中,用量子门控输出样本到各任务的相关性权重。
随后,这些权重会被用于 task-interaction knowledge distillation,让当前 adapter 从更相关的历史 adapter 中学习特征信息,而不是平均吸收所有旧任务知识。
在推理阶段,论文继续复用这些量子门控得到的相关性权重,用来进行自适应 adapter 融合。这样训练和测试使用的是同一套任务相关性估计机制,可以减少训练阶段知识迁移和测试阶段任务路由之间的不一致问题。
实验方面,论文在 CIFAR-100、CUB-200、ImageNet-A、ImageNet-R 和 VTAB 等多个无样本回放类增量学习基准上进行了验证。雷峰网
结果显示,QKD 能够提升最终准确率和平均增量准确率,并且在多种设置下达到领先或有竞争力的表现。消融实验也表明,用量子门控替代普通余弦相似度或神经网络控制器后,模型能更好地捕捉复杂任务关系。
这篇论文的亮点在于,它把量子门控机制引入到类增量学习中的任务路由和知识蒸馏过程。相比简单地保存旧知识或独立训练不同任务 adapter,QKD 更关注任务之间的相关性建模,让模型在学习新类别时有选择地迁移旧任务知识。
总体来看,这项工作为预训练模型时代的持续学习提供了一种新的思路:模型不仅要避免遗忘,还要学会判断“哪些旧知识值得被当前任务继承”。