登录

上智院联合复旦等开源BARD-VL:多模态Diffusion模型新SOTA


速读:然而,问题也很明确:如何在将SOTA自回归VLM转换为DiffusionVLM的过程中,保持模型性能不退化,始终是学术界面临的一大关键难题。 除了架构转换,BARD还在训练策略和显存效率上进行了深度优化。
2026年05月09日 09:13

本文第一作者陈保友为上海科学智能研究院(下称上智院)主任研究员,主要研究方向为多模态理解生成;上智院研究员夏翰宸、涂鹏为共同一作。复旦大学教授、上智院 AI 科学家、上海创智学院全时导师朱思语为通讯作者。

如果把多模态大模型下一阶段的竞争概括成一句话,那就是:不只要更强,还要更快。当前主流视觉语言模型(Vision-Language Model,VLM)大多建立在自回归(Autoregressive,AR)范式上,模型理解能力持续提升,但 token-by-token 的串行解码机制,也让推理延迟与部署成本问题日益凸显。尤其是在文档理解、多模态 Agent 等长输出场景中,速度瓶颈已经开始直接影响模型的实际可用性。

相比之下,扩散式(Diffusion)解码具备天然的并行性,能够通过并行细化多个 token 来提升解码效率,理论上更适合长序列并行生成。然而,问题也很明确:如何在将 SOTA 自回归 VLM 转换为 Diffusion VLM 的过程中,保持模型性能不退化,始终是学术界面临的一大关键难题。

近期,上海科学智能研究院联合上海创智学院、复旦大学等发表了一项名为  BARD (Bridging Autoregressive and Diffusion)的研究工作。该研究提出了一套创新的桥接框架,能够将预训练的自回归 VLM 平滑转换为同架构、具备高效解码能力的扩散 VLM。实验表明,基于 Qwen3-VL 转换得到的 BARD-VL, 在保持甚至超越原模型性能的同时,实测解码吞吐量最高提升达 3 倍。

论文链接:https://arxiv.org/pdf/2604.16514

代码仓库:https://github.com/fudan-generative-vision/Bard-VL.git

Huggingface: https://huggingface.co/collections/fudan-generative-ai/bard-vl

现状与挑战:AR 的瓶颈与 Diffusion 的困境

自回归 VLM 在视觉问答、文档理解及多模态 Agent 等任务中表现卓越。然而,随着生成序列长度的增加,串行解码带来的计算负担和响应延迟,正逐渐成为其实际落地的主要瓶颈。

扩散多模态模型(dVLM)通过多轮并行细化更新整个 Block 的 tokens,被视为提升生成效率的一条潜力路线。但在实践中,研究者发现,若直接将成熟的 AR 模型转换为大块扩散模型,模型能力往往会出现显著退化。这种性能损失,主要源于两种范式在预测条件与监督目标上的不一致:AR 模型侧重于在干净的因果前缀下预测下一个 token,而扩散模型则需在扰动状态下进行同位置去噪。

这种「监督错位」导致直接进行 KL 蒸馏的效果往往不尽如人意。因而,当前多模态生成仍未摆脱「高性能」与「高效率」之间的张力:自回归模型在能力上更成熟,但受限于串行解码,长序列场景下推理成本较高;扩散模型具备更强的并行生成潜力,却常因监督错位导致性能退化。如何兼顾两者,已成为多模态模型进一步规模化落地的关键问题。

BARD 核心机制:搭建范式迁移的「桥梁」

BARD 并非尝试从零训练一个原生扩散模型,而是提出了一套系统化的桥接框架,旨在实现「能力保持」与「高效解码」之间的解耦优化。

2.1 渐进式监督块合并(Progressive Supervised Block Merging)

为了避免从串行解码直接跳到大规模并行解码所带来的「跃迁式失败」,BARD 引入了渐进式调度策略。具体来说,模型首先从预训练 AR 模型出发,构建一个小块扩散锚点模型。随后,模型遵循(4,8,16,32)的块大小序列,逐阶段扩大并行解码粒度。这种设计使模型在每一阶段只需学习如何合并相邻的预测块,从而显著降低了学习难度。

2.2 阶段式扩散蒸馏(Stage-wise dVLM Distillation)

针对监督错位问题,BARD 重新定义了蒸馏目标。与其使用原始 AR 模型作为教师模型,BARD 采用前一阶段生成的扩散锚点模型进行监督。由于学生和教师模型均运行在扩散机制下,其监督信号的匹配度更高。实验证明,在 Block 尺寸为 32 的设置下,扩散蒸馏对 MMMU、RealWorldQA、MMMU-Pro 等指标的提升远超传统的自回归蒸馏。

2.3 工程优化:迈向实用的长序列训练

除了架构转换,BARD 还在训练策略和显存效率上进行了深度优化。

混合噪声调度器(Mixed-noise Scheduler): 传统的掩码扩散模型擅长补全缺失信息,但缺乏纠错能力。BARD 在掩码噪声的基础上,引入了针对可见 Token 的均匀破坏,使模型在训练中同时习得「补全」与「修正」能力,显著增强了在复杂场景下的鲁棒性。

内存友好的训练布局: 多模态序列通常包含大量视觉 Token,导致训练显存压力巨大。BARD 采用 Packed Sequence Layout,将输入上下文、clean response 与 noisy response 封装在同一序列中,并通过定制化的注意力掩码机制确保信息流向的正确性,极大地优化了长序列任务的训练效率。

实验结果:性能与效率的双重飞跃

研究团队基于开源的 LLaVA-OneVision-1.5 与 FineVision 数据集,清洗并构建了 4.4M 高质量训练数据,并在 7 项核心 Benchmark 上进行了全面评测。

3.1 综合能力对比

主题:自回归|自回归VLM