登录

预训练


效果

这就引出了一个关键的开放性问题:能否在不从头训练、不改变原始预测目标的前提下,将已有的预训练AR模型改造成高度并行的生成器,同时继承其强大的生成能力?
文章

不需要从头训练,在Emu3.5-Image-34B模型上,仅用原始训练数据的0.05%(约8万张图片),就能将预训练好的自回归模型改造成高度并行的生成器Emu3.5-34B-Flash,实现最高
文章