D-OPSD:将OPSD引入扩散模型,让少步扩散模型「边跑边学」,还能学会新概念

本文由阿里巴巴 Z-Image 团队联合香港科技大学等机构共同完成。第一作者为香港科技大学预备博士生 & 通义实验撒实习生姜登阳,他的研究方向为视觉表征和生成。
少步扩散模型(如 Z-Image-Turbo)凭借高效采样和优异质量,已成为图像生成领域的主流方案。然而,这些经过 "步数蒸馏" 的模型在持续微调时面临一个棘手问题:传统监督微调(SFT)和离线 RL 方法会让模型 "忘记" 原本的少步生成能力,训练与推理之间存在严重的分布偏移。
为此, 阿里巴巴 Z-Image 团队联合香港科技大学、加州大学圣地亚哥分校、香港中文大学等机构 提出 D -OPSD(O n-Policy Self-Distillation),首个针对少步扩散模型的在线策略自蒸馏框架 。D-OPSD 无需奖励模型、无需成对偏好数据,仅凭目标图像 - 文本对即可让模型在保持原有少步采样能力的同时,学会新概念、新风格和新领域偏好。在 LoRA 定制和全量微调实验中,D-OPSD 在概念学习、视觉质量、提示词遵循和先验知识保留之间取得了最佳平衡。
论文标题:D-OPSD: On-Policy Self-Distillation for Continuously Tuning Step-Distilled Diffusion Models
论文链接:https://arxiv.org/abs/2605.05204
项目主页:https://vvvvvjdy.github.io/d-opsd/
代码地址:https://github.com/vvvvvjdy/D-OPSD
一、核心问题:少步模型的 "持续学习" 困境
当前高性能图像生成模型正从低效的多步采样器转向高效的少步采样器。这些经过步数蒸馏的模型在减少函数评估次数的同时保持了生成质量,极具实用价值。 但如何对这类模型进行持续微调,学界尚无明确答案。
传统训练范式各有短板:
Vanilla SFT :通过目标图像构造 GT velocity 进行监督,但优化状态和信号均来自目标图像而非模型自身的少步采样轨迹,导致训练与推理严重不匹配。
离线 RL 方法 (如 Diffusion-DPO、PSO):引入成对监督,但优化状态仍非完全由学生当前分布诱导。
在线 RL 方法 (如 ReFL、Flow-GRPO):在模型 rollout 上训练,能更好保留少步行为,但依赖奖励函数或奖励模型,而二次开发者往往只有图像 - 文本对,难以获取高质量奖励信号。
D-OPSD 在设计空间中占据了一个独特的位置:在线策略、无需奖励模型、保持训练 - 推理一致性,同时通过自蒸馏引入目标图像 - 文本对。
二、关键发现:扩散模型继承了 LLM/VLM 的 "上下文能力"
近期, 大语言模型(LLM)领域的 On-Policy Distillation(OPD)和 On-Policy Self-Distillation(OPSD)范式引起了广泛关注。 其核心思想是:学生模型在自身采样出的轨迹(on-policy roll-outs)上进行训练,而教师模型在更丰富的上下文条件下提供更强的监督信号,从而在不依赖外部奖励模型的情况下实现高效的后训练对齐。例如,在 LLM 中,学生基于自身采样的回答进行优化,教师则在更完整的上下文(如参考文档、多轮对话历史)下给出更优的预测,通过分布对齐将学生拉向教师。
现代配备 LLM/VLM 编码器的扩散模型,能够从编码器中继承 上下文学习(in- context learning) 能力 。研究团队发现,当仅用文本提示时,模型生成的是通用结果;而当将目标图像与文本提示一起输入编码器、使用多模态特征作为条件时, 即使不做任何额外训练,模型也能生成保留目标概念或风格的图像变体。