上智院联合复旦等开源BARD-VL：多模态Diffusion模型新SOTA

速读：然而，问题也很明确：如何在将SOTA自回归VLM转换为DiffusionVLM的过程中，保持模型性能不退化，始终是学术界面临的一大关键难题。除了架构转换，BARD还在训练策略和显存效率上进行了深度优化。

2026年05月09日 09:13

本文第一作者陈保友为上海科学智能研究院（下称上智院）主任研究员，主要研究方向为多模态理解生成；上智院研究员夏翰宸、涂鹏为共同一作。复旦大学教授、上智院 AI 科学家、上海创智学院全时导师朱思语为通讯作者。

如果把多模态大模型下一阶段的竞争概括成一句话，那就是：不只要更强，还要更快。当前主流视觉语言模型（Vision-Language Model，VLM）大多建立在自回归（Autoregressive，AR）范式上，模型理解能力持续提升，但 token-by-token 的串行解码机制，也让推理延迟与部署成本问题日益凸显。尤其是在文档理解、多模态 Agent 等长输出场景中，速度瓶颈已经开始直接影响模型的实际可用性。

相比之下，扩散式（Diffusion）解码具备天然的并行性，能够通过并行细化多个 token 来提升解码效率，理论上更适合长序列并行生成。然而，问题也很明确：如何在将 SOTA 自回归 VLM 转换为 Diffusion VLM 的过程中，保持模型性能不退化，始终是学术界面临的一大关键难题。

近期，上海科学智能研究院联合上海创智学院、复旦大学等发表了一项名为 BARD （Bridging Autoregressive and Diffusion）的研究工作。该研究提出了一套创新的桥接框架，能够将预训练的自回归 VLM 平滑转换为同架构、具备高效解码能力的扩散 VLM。实验表明，基于 Qwen3-VL 转换得到的 BARD-VL，在保持甚至超越原模型性能的同时，实测解码吞吐量最高提升达 3 倍。

论文链接：https://arxiv.org/pdf/2604.16514

代码仓库：https://github.com/fudan-generative-vision/Bard-VL.git

Huggingface： https://huggingface.co/collections/fudan-generative-ai/bard-vl

现状与挑战：AR 的瓶颈与 Diffusion 的困境

自回归 VLM 在视觉问答、文档理解及多模态 Agent 等任务中表现卓越。然而，随着生成序列长度的增加，串行解码带来的计算负担和响应延迟，正逐渐成为其实际落地的主要瓶颈。

扩散多模态模型（dVLM）通过多轮并行细化更新整个 Block 的 tokens，被视为提升生成效率的一条潜力路线。但在实践中，研究者发现，若直接将成熟的 AR 模型转换为大块扩散模型，模型能力往往会出现显著退化。这种性能损失，主要源于两种范式在预测条件与监督目标上的不一致：AR 模型侧重于在干净的因果前缀下预测下一个 token，而扩散模型则需在扰动状态下进行同位置去噪。

这种「监督错位」导致直接进行 KL 蒸馏的效果往往不尽如人意。因而，当前多模态生成仍未摆脱「高性能」与「高效率」之间的张力：自回归模型在能力上更成熟，但受限于串行解码，长序列场景下推理成本较高；扩散模型具备更强的并行生成潜力，却常因监督错位导致性能退化。如何兼顾两者，已成为多模态模型进一步规模化落地的关键问题。

BARD 核心机制：搭建范式迁移的「桥梁」

BARD 并非尝试从零训练一个原生扩散模型，而是提出了一套系统化的桥接框架，旨在实现「能力保持」与「高效解码」之间的解耦优化。

2.1 渐进式监督块合并（Progressive Supervised Block Merging）

为了避免从串行解码直接跳到大规模并行解码所带来的「跃迁式失败」，BARD 引入了渐进式调度策略。具体来说，模型首先从预训练 AR 模型出发，构建一个小块扩散锚点模型。随后，模型遵循（4，8，16，32）的块大小序列，逐阶段扩大并行解码粒度。这种设计使模型在每一阶段只需学习如何合并相邻的预测块，从而显著降低了学习难度。

2.2 阶段式扩散蒸馏（Stage-wise dVLM Distillation）

针对监督错位问题，BARD 重新定义了蒸馏目标。与其使用原始 AR 模型作为教师模型，BARD 采用前一阶段生成的扩散锚点模型进行监督。由于学生和教师模型均运行在扩散机制下，其监督信号的匹配度更高。实验证明，在 Block 尺寸为 32 的设置下，扩散蒸馏对 MMMU、RealWorldQA、MMMU-Pro 等指标的提升远超传统的自回归蒸馏。

2.3 工程优化：迈向实用的长序列训练

除了架构转换，BARD 还在训练策略和显存效率上进行了深度优化。

混合噪声调度器（Mixed-noise Scheduler）：传统的掩码扩散模型擅长补全缺失信息，但缺乏纠错能力。BARD 在掩码噪声的基础上，引入了针对可见 Token 的均匀破坏，使模型在训练中同时习得「补全」与「修正」能力，显著增强了在复杂场景下的鲁棒性。

内存友好的训练布局：多模态序列通常包含大量视觉 Token，导致训练显存压力巨大。BARD 采用 Packed Sequence Layout，将输入上下文、clean response 与 noisy response 封装在同一序列中，并通过定制化的注意力掩码机制确保信息流向的正确性，极大地优化了长序列任务的训练效率。

实验结果：性能与效率的双重飞跃

研究团队基于开源的 LLaVA-OneVision-1.5 与 FineVision 数据集，清洗并构建了 4.4M 高质量训练数据，并在 7 项核心 Benchmark 上进行了全面评测。

3.1 综合能力对比

主题：自回归|自回归VLM