扩散模型里的噪声,原来还有这样的作用:DRDD重新定义统一图像翻译
在图像到图像翻译(Image-to-Image Translation, I2I)这个任务上,扩散模型过去几年几乎形成了一套默认逻辑:先把输入图像和噪声混合,再一步步去噪,把目标图像 “还原” 出来。
这条路线很自然,也很成功。无论是超分辨率、去雨、去雾、低光增强,还是风格转换,扩散模型都凭借更强的生成质量和多样性,逐渐成为 I2I 任务里的重要范式。
但最近一篇来自香港大学、中国科学院沈阳自动化研究所、UC Santa Cruz 等团队的工作,提出了一个非常有意思的问题:
我们是不是一直忽视了 “噪声” 的作用?
更准确地说,扩散模型里的高斯噪声,可能不只是一个等待被移除的扰动,也不只是把数据从低维流形中抬升的工具。它还可能扮演一个此前被忽略的角色: 域协调器 (Domain Harmonizer)。论文提出的 DRDD,全称为 Decoupled Residual Denoising Diffusion Models ,正是围绕这个发现,重新设计了统一且数据高效的 I2I 翻译框架。
论文标题: Decoupled Residual Denoising Diffusion Models for Unified and Data Efficient Image-to-Image Translation
project:https://github.com/HKU-HealthAI/DRDD
arxiv 链接:https://arxiv.org/html/2606.01048v1
CVPR 链接:https://cvpr.thecvf.com/virtual/2024/poster/31373
从 “移除噪声” 到 “利用噪声”:
I2I 扩散模型的核心机制被重新理解
过去的 I2I 扩散方法,大体可以分成两类。
早期方法,比如 SR3、WeatherDiff,通常从纯高斯噪声开始反向生成,把输入图像当作条件信号。后来的方法,比如 RDDM、IR-SDE,则意识到直接从纯噪声出发不够稳定,于是改成从 “带噪输入图像” 开始反向采样,以更好保留输入结构、减少推理不确定性。
但这些方法背后有一个共同点:
它们都把图像翻译过程压进了一个单一、耦合的反向扩散过程里。
也就是说,在每一步采样中,模型一边去噪,一边去残差,一边完成源域到目标域的转换。这样的转换看起来很自然,但问题也出在这里。
对于单一任务,这样做可能还算有效;但一旦进入统一 I2I 场景,也就是一个模型要同时处理低光增强、去雨、去雾、去模糊、去噪等多个任务,问题就会变得棘手:不同任务、不同退化类型、不同图像域之间存在明显 domain gap。模型需要在多个差异很大的分布之间找到统一映射。
这正是 DRDD 的切入点:
既然加噪能让不同域的特征分布靠得更近,为什么要在核心翻译还没完成之前,就急着把噪声去掉?
别急着去噪:
高斯噪声其实在帮不同域 “对齐”
DRDD 重新解释了高斯噪声在 I2I 翻译里的作用。
传统观点里,噪声主要有两个功能:一是把数据从低维流形中移出,二是为 score estimation 提供更丰富的训练信号。但论文进一步从理论和实验上证明:注入一定水平的高斯噪声,可以降低不同域特征分布之间的差距。
简单说,原本低光、去雨、去雾这些任务,在特征空间里可能分得很开;但当它们都被注入适当噪声之后,分布会变得更接近。论文在 Figure 1 中用 t-SNE 可视化展示了这一点:源域之间 gap 明显,而加入噪声后的 Source+Noise domain 中,不同任务的特征明显靠近。