22.9倍加速！FlashAR：仅用0.05%数据，让预训练好的自回归图像模型飞起来

速读：不需要从头训练，在Emu3.5-Image-34B模型上，仅用原始训练数据的0.05%（约8万张图片），就能将预训练好的自回归模型改造成高度并行的生成器Emu3.5-34B-Flash，实现最高。

2026年05月23日 21:58

背景：自回归图像生成的崛起与推理瓶颈

大语言模型的成功让 "next-token prediction" 这套范式从文本延伸到了图像领域。把图像用视觉分词器编码成离散 token，再一个接一个的预测出来 —— 这就是自回归（AR）图像生成的核心思路。从早期的 PixelCNN、iGPT、Parti，到近期的 Emu3.5、LlamaGen、Lumina-mGPT、GLM-Image，AR 模型的生成质量已经全面逼近甚至超过了扩散模型。

但 AR 模型有个绕不开的问题：慢。标准的 raster-scan 解码从左到右、从上到下，一步只出一个 token。生成一张 512×512 的图要走 32×32 = 1024 步串行前向传播，单卡耗时超过两分钟。延迟随分辨率线性增长，GPU 的并行算力也用不起来 —— 高分辨率和实时场景下，基本没法实际部署。

现有加速方案

为了突破这一瓶颈，研究者们已经探索了多种加速策略，但都面临不同的局限：

重新设计生成范式：例如如 VAR 的 "下一尺度预测"、NAR 的 "近邻预测"、PAR 的分组并行解码，虽然能大幅降低解码步数，但这些方法需要从头预训练，无法复用已有的大规模预训练 AR 模型，训练成本高昂。

离散扩散适配：例如 Emu3.5 原文采用的 DiDA，他们通过后训练将 AR 模型改造为支持并行解码的离散扩散模型。但这种方法改变了原始的预测目标，引入了预训练和推理之间的不一致性，往往导致生成质量显著下降，在我们的复现实验中，相同数据量，Emu3.5 在 block diffusion 后训练过程中，geneval 分数会在总体会有一个比较大的 drop

推测解码：作为一种无需训练的加速插件，实际加速效果受限于草稿模型的接受率，提升效果相对比较有限。

这就引出了一个关键的开放性问题：能否在不从头训练、不改变原始预测目标的前提下，将已有的预训练 AR 模型改造成高度并行的生成器，同时继承其强大的生成能力？

来自浙江大学和阿德莱德大学的研究团队提出了 FlashAR —— 一个轻量级的后训练加速框架。不需要从头训练，在 Emu3.5-Image-34B 模型上，仅用原始训练数据的 0.05%（约 8 万张图片），就能将预训练好的自回归模型改造成高度并行的生成器 Emu3.5-34B-Flash，实现最高 22.9 倍的端到端加速。

主题：AR模型|预训练|自回归