22.9倍加速!FlashAR:仅用0.05%数据,让预训练好的自回归图像模型飞起来
背景:自回归图像生成的崛起与推理瓶颈
大语言模型的成功让 "next-token prediction" 这套范式从文本延伸到了图像领域。把图像用视觉分词器编码成离散 token,再一个接一个的预测出来 —— 这就是自回归(AR)图像生成的核心思路。从早期的 PixelCNN、iGPT、Parti,到近期的 Emu3.5、LlamaGen、Lumina-mGPT、GLM-Image,AR 模型的生成质量已经全面逼近甚至超过了扩散模型。
但 AR 模型有个绕不开的问题: 慢 。标准的 raster-scan 解码从左到右、从上到下,一步只出一个 token。生成一张 512×512 的图要走 32×32 = 1024 步串行前向传播,单卡耗时超过两分钟。延迟随分辨率线性增长,GPU 的并行算力也用不起来 —— 高分辨率和实时场景下,基本没法实际部署。
现有加速方案
为了突破这一瓶颈,研究者们已经探索了多种加速策略,但都面临不同的局限:
重新设计生成范式: 例如如 VAR 的 "下一尺度预测"、NAR 的 "近邻预测"、PAR 的分组并行解码,虽然能大幅降低解码步数,但这些方法需要 从头预训练 ,无法复用已有的大规模预训练 AR 模型,训练成本高昂。
离散扩散适配 : 例如 Emu3.5 原文采用的 DiDA,他们通过后训练将 AR 模型改造为支持并行解码的离散扩散模型。但这种方法 改变了原始的预测目标 ,引入了预训练和推理之间的不一致性,往往导致生成质量显著下降,在我们的复现实验中,相同数据量,Emu3.5 在 block diffusion 后训练过程中,geneval 分数会在总体会有一个比较大的 drop
推测解码 : 作为一种无需训练的加速插件,实际加速效果受限于草稿模型的接受率,提升效果相对比较有限。
这就引出了一个关键的开放性问题: 能否在不从头训练、不改变原始预测目标的前提下,将已有的预训练 AR 模型改造成高度并行的生成器,同时继承其强大的生成能力?
来自浙江大学和阿德莱德大学的研究团队提出了 FlashAR —— 一个轻量级的后训练加速框架。 不需要从头训练 ,在 Emu3.5-Image-34B 模型上,仅用原始训练数据的 0.05%(约 8 万张图片),就能将预训练好的自回归模型改造成高度并行的生成器 Emu3.5-34B-Flash,实现最高 22.9 倍 的端到端加速。