登录

Diffusion一定比自回归更有机会实现大一统吗?


速读:合成数据的「毒」与「药」,模型崩溃有何新解? 合成数据为什么会在迭代训练中逐代污染训练集?
2025年08月31日 09:3

机器之心PRO · 会员通讯 Week 35

--- 本周为您解读 ③ 个值得细品的 AI & Robotics 业内要事 ---

1.  Diffusion 一定比自回归更有机会实现大一统吗?

有哪些工作认为 Diffusion 有望取代主流的 AR 架构?Diffusion 做大一统有何理论基础?为什么 Diffusion 的并行生成理论上更高效,但还是比 AR 慢?是什么解锁了 DLM 的文本推理能力?近期工作挖掘了 DLM 的哪些潜力? ...

2.  合成数据的「毒」与「药」,模型崩溃有何新解?

合成数据为什么会在迭代训练中逐代污染训练集?模型在早期和晚期崩溃表现出了怎样的差异?不同类型生成模型(LLM、VAE、GMM)崩溃机制有何共性和差异?合成数据在预训练、微调、后训练、评估各阶段分别发挥了哪些功能?在什么情况下会反而降低模型性能?「Token-Level Editing」、「黄金比例混合」和「递归训练样本控制」等方法各自解决了崩溃问题的哪一环?在实际训练中,如何量化「合成数据带来的信息增益」以保证模型泛化能力? ...

3.  智能体靠 Oak 架构自进化,Sutton 揭秘强化学习才是驱动力!

Sutton 为什么认为强化学习是通向 AGI 的关键路径?「大世界」视角下,AI 为什么无法依赖预装知识?Oak 架构的「感知-玩耍-预测-规划」循环如何推动智能体自我进化?在 Oak 中,子问题和选项机制如何实现经验到高层知识的涌现?Oak 架构的开放式发现循环能否保证智能体无限成长? ...

本期完整版通讯含 3 项专题解读 + 29 项本周 AI & Robotics 赛道要事速递,其中技术方面 9  项,国内方面 10 项,国外方面 10 项。

本期通讯总计  26113  字,可免费试读至 7% 

 消耗 288 微信豆可兑换完整本期解读(约合人民币 28.8 元) 

要事解读①  Diffusion 一定比自回归更有机会实现大一统吗?

引言 : GPT-4o 在 2025 年 3 月的发布时引发了一波对多模态模型的热度。但在自回归(AR)架构主导的多模态范式下,扩散语言模型(DLM/dLLM)近期在 NLP 领域的突破引发了另一种思潮,即扩散架构或许有望先一步实现真正的「大一统」。

从初现端倪到日趋成熟,Diffusion 成为多模态大一统「潜力种子」选手?

1、在 AI 的发展中,模型的多模态能力被认为是实现人类级别智能的必要条件。这使得构建「大一统」模型被认为是其中的关键一步。

2、对于业内所探讨的「大一统」模型,其目标是对模态的统一,旨在用一个单一、连贯的架构实现对异构数据类型(如文本、图像、音频、视频、3D 模型乃至机器人动作信号)的理解与生成。通过整合多源信息,AI 模型能够形成更接近人类认知的、整体性的世界理解,从而在复杂推理和决策任务中表现更佳。[1-1]

3、在追求「大一统」模型的道路上,自回归(AR)架构长期占据主导地位。以 Transformer 为代表的自回归 LLM 最初在 NLP 领域实现突破,然后衍生至多模态领域,催生出 LLaVa、Qwen-VL、InternVL、Ovis 和 GPT4 等强大的多模态理解模型。[1-2]

3、扩散模型此前在视觉领域得到广泛的应用,相关成果包含 Stable Diffusion 和 DiT 等。相比之下,扩散(Diffusion)架构此前流行于视觉生成领域,但近期伴随扩散语言模型(DLM/dLLM)在自然语言处理任务上取得突破,让人们开始重新审视这种架构在推理和实现多模态大一统的潜力。

① 香港大学和阿里等机构的研究者在 2025 年 5 月的综述中强调,扩散范式天然支持并行生成、精细化控制和动态感知,这些是 AR 模型难以实现的能力,使其在多模态领域极具潜力。[1-2]

② 同年 6 月,新加坡国立大学的研究者在一篇综述中强调了离散扩散架构的前景,并将其作为替代 AR 实现多模态大一统处理能力的潜在方案进行总结。[1-3]

③ 而后在 2025 年 8 月,MBZUAI 和清华的研究者则在其综述中界定了扩散语言模型通过并行生成和迭代式去噪解决 AR 模型推理速度瓶颈的根本优势,以及后续扩散架构扩展至不同其他模态的潜力论证。[1-5]

走向「大一统」,Diffusion 的潜力源自何方?

1、从信息论的角度出发,生成式建模本质上是一种复杂的数据压缩算法。以 Transformer 为代表的 AR 架构中的 NTP 目标本质上等同于最小化序列的描述长度,这使其成为一种强大的无损压缩机。

① 自回归(AR)模型的本质是预测下个 token,这种架构最初用于语言建模,因此尤其适应 NLP 任务。对于多模态任务(如视觉),自回归模型需要将输入转换为一维序列(像素、图像块或潜在代码)来适应任务。

② 基于 AR 的多模态方法有早期的双编码器架构,需要单独编码图像和文本输入,然后通过对齐的潜在表征来进行推理。随着 LLM 兴起,AR 多模态模型逐渐转向仅解码器架构,一般会通过一个连接器来转换图像嵌入。

2、扩散架构的本质是一种纠错机制,其正向加噪和反向去噪的过程虽然在操作上与 Transformer 不同,但同样可以被理解为一个强大的压缩框架,且天然地支持两种压缩模式。[1-7] [1-8]

主题:模型|合成数据