预训练

效果

这就引出了一个关键的开放性问题：能否在不从头训练、不改变原始预测目标的前提下，将已有的预训练AR模型改造成高度并行的生成器，同时继承其强大的生成能力？

文章

不需要从头训练，在Emu3.5-Image-34B模型上，仅用原始训练数据的0.05%（约8万张图片），就能将预训练好的自回归模型改造成高度并行的生成器Emu3.5-34B-Flash，实现最高

文章