登录

刚刚,何恺明团队新作,「嵌入式语言流」ELF来了


速读:离散扩散语言模型(DiscreteDLM):直接在token空间里定义扩散过程,比如用MASK遮盖token再逐步还原(MDLM)、或者把token往均匀分布扩散再逐步修正(Duo)。
2026年05月13日 10:0

「语言是离散的,但语言模型不一定是。」

去年, 一个名为 LLaDA 的项目在 AI 圈引发了不小的讨论 。这个基于「掩码扩散」原理的语言模型,宣称在若干基准测试上能与同规模的自回归大模型(即 GPT 为代表的逐字生成模型)一较高下。

消息一出,扩散语言模型(Diffusion Language Model,DLM)这个此前略显小众的研究方向,突然进入了更多人的视野。

我们知道,文字是离散的 token,而扩散模型天然擅长处理连续数据,这让视觉生成领域的主流技术,天然地难以运用在语言大模型上。

而在 LLaDA 说明扩散模型可行后,各路团队相继跟进。研究者们普遍承认,扩散模型在文本生成上确实大有潜力 —— 它天然支持并行解码,理论上可以比逐字输出的自回归模型快得多,也更容易实现「填空」、「双向修改」等自回归模型难以完成的任务。

在这一大方向上,研究者走出了两条路:

离散扩散语言模型(Discrete DLM) :直接在 token 空间里定义扩散过程,比如用 MASK 遮盖 token 再逐步还原(MDLM)、或者把 token 往均匀分布扩散再逐步修正(Duo)。这条路近年来一直是主流,效果更好。

连续扩散语言模型(Continuous DLM) :先把 token 映射到连续的嵌入向量,在连续空间里做去噪,最后再转回 token。这条路理论上更优雅,但实际效果长期落后于离散派。

而 何恺 明团队的这篇新论 文则选择了明显更加困难的后者。

他们提出的模型叫做  ELF(Embedded Language Flows,嵌入式语言流) ,核心思路只有一句话: 把扩散过程搬进连续的向量空间,只在最后一步才把结果翻译成词 。

主题:离散|扩散模型|扩散语言模型