扩散模型里的噪声，原来还有这样的作用：DRDD重新定义统一图像翻译

速读：I2I扩散模型的核心机制被重新理解。 DRDD重新解释了高斯噪声在I2I翻译里的作用。

2026年06月10日 14:0

在图像到图像翻译（Image-to-Image Translation, I2I）这个任务上，扩散模型过去几年几乎形成了一套默认逻辑：先把输入图像和噪声混合，再一步步去噪，把目标图像 “还原” 出来。

这条路线很自然，也很成功。无论是超分辨率、去雨、去雾、低光增强，还是风格转换，扩散模型都凭借更强的生成质量和多样性，逐渐成为 I2I 任务里的重要范式。

但最近一篇来自香港大学、中国科学院沈阳自动化研究所、UC Santa Cruz 等团队的工作，提出了一个非常有意思的问题：

我们是不是一直忽视了 “噪声” 的作用？

更准确地说，扩散模型里的高斯噪声，可能不只是一个等待被移除的扰动，也不只是把数据从低维流形中抬升的工具。它还可能扮演一个此前被忽略的角色：域协调器（Domain Harmonizer）。论文提出的 DRDD，全称为 Decoupled Residual Denoising Diffusion Models ，正是围绕这个发现，重新设计了统一且数据高效的 I2I 翻译框架。

论文标题： Decoupled Residual Denoising Diffusion Models for Unified and Data Efficient Image-to-Image Translation

project：https://github.com/HKU-HealthAI/DRDD

arxiv 链接：https://arxiv.org/html/2606.01048v1

CVPR 链接：https://cvpr.thecvf.com/virtual/2024/poster/31373

从 “移除噪声” 到 “利用噪声”：

I2I 扩散模型的核心机制被重新理解

过去的 I2I 扩散方法，大体可以分成两类。

早期方法，比如 SR3、WeatherDiff，通常从纯高斯噪声开始反向生成，把输入图像当作条件信号。后来的方法，比如 RDDM、IR-SDE，则意识到直接从纯噪声出发不够稳定，于是改成从 “带噪输入图像” 开始反向采样，以更好保留输入结构、减少推理不确定性。

但这些方法背后有一个共同点：

它们都把图像翻译过程压进了一个单一、耦合的反向扩散过程里。

也就是说，在每一步采样中，模型一边去噪，一边去残差，一边完成源域到目标域的转换。这样的转换看起来很自然，但问题也出在这里。

对于单一任务，这样做可能还算有效；但一旦进入统一 I2I 场景，也就是一个模型要同时处理低光增强、去雨、去雾、去模糊、去噪等多个任务，问题就会变得棘手：不同任务、不同退化类型、不同图像域之间存在明显 domain gap。模型需要在多个差异很大的分布之间找到统一映射。

这正是 DRDD 的切入点：

既然加噪能让不同域的特征分布靠得更近，为什么要在核心翻译还没完成之前，就急着把噪声去掉？

别急着去噪：

高斯噪声其实在帮不同域 “对齐”

DRDD 重新解释了高斯噪声在 I2I 翻译里的作用。

传统观点里，噪声主要有两个功能：一是把数据从低维流形中移出，二是为 score estimation 提供更丰富的训练信号。但论文进一步从理论和实验上证明：注入一定水平的高斯噪声，可以降低不同域特征分布之间的差距。

简单说，原本低光、去雨、去雾这些任务，在特征空间里可能分得很开；但当它们都被注入适当噪声之后，分布会变得更接近。论文在 Figure 1 中用 t-SNE 可视化展示了这一点：源域之间 gap 明显，而加入噪声后的 Source+Noise domain 中，不同任务的特征明显靠近。

主题：I2I|扩散模型里