字节跳动开源Lance 3 B：用一个“脑子”同时搞定图视理解与生成

速读：它不仅以仅3B（30亿）的极致轻量化激活参数量实现了全功能覆盖，更是打破了长期以来“理解模型（VLM）”与“生成模型(DiT/Diffusion)”之间的技术高墙。斩获62.0分，将体积比它大一倍的专用理解模型Show-o2（7B，55.7分）远远甩在身后。不仅将同类全能模型TUNA（84.06）斩于马下，甚至直接超越了HunyuanVideo(83.33)和Wan2.1-T2V(83.69)等纯视频生成大模型。在传统的AI架构中，大模型的“理解”和“生成”是一对不可调和的矛盾:。

2026-05-22 14:22

近日，字节跳动（ByteDance Research）正式开源了其原生统一多模态大模型—— Lance 。

在当前 AI 行业动辄堆砌数百亿甚至上万亿参数、或者靠“拼积木”组装大模型的风气下，Lance 的出现无疑是一记重锤:它不仅以仅3B（30亿）的极致轻量化激活参数量实现了全功能覆盖，更是打破了长期以来“理解模型（VLM）”与“生成模型(DiT/Diffusion)”之间的技术高墙。

核心看点:

原生统一: 拒绝“拼接”，从零训练起就将图像/视频的理解、生成与跨模态编辑塞进同一个模型体系。

全能跑通: 单个模型完美闭环 $X \rightarrow T$（文/视理解）、$X \rightarrow I$(图生成/编辑)、$X \rightarrow V$(视频生成/编辑)三大核心输出任务。

开源白嫖: 采用极其友好的 Apache2.0协议，权重已全面上线 Hugging Face，平民级128张 A100算力预算即可跑通全程。

技术解密:它是如何让相反的需求“同频共振”的?

在传统的 AI 架构中，大模型的“理解”和“生成”是一对不可调和的矛盾:理解任务需要剥离噪点、提炼高层语义特征;而生成任务则恰恰相反，需要死磕纹理、几何结构和时序动态等低层连续表示。

为了攻克这一业界公认的难题，Lance 引入了极其精妙的“共享上下文 + 能力解耦并行”设计:

1. 统一交错序列与双流专家架构所有文本、图像、视频输入进入模型前，首先会被打散并转化为统一的“交错序列”。随后，这一序列被送入双流专家架构（Dual-Stream MoE），让专门负责“理解”与“生成”的专家路由各司其职，完美解决能力冲突。

理解侧: 文本标记与视觉输入分别依赖 Qwen2.5-VL 的嵌入层与 ViT 编码器，精准提取高能语义视觉标记（Tokens）。

生成侧: 视觉输入由 Wan2.2 强大的3D 因果 VAE 压缩编码，实现 $16\times$ 空间下采样和 $4\times$ 时间下采样，保留最细腻的动态连续表示。

2. MaPE（模态感知旋转位置编码）当同一条长序列里同时混合了图、文、视多种视觉标记时，极易产生“边界混淆”的幻觉。Lance 独创了 MaPE 机制，通过为不同模态组添加固定的时间偏移量。这一精妙设计在不破坏图像和视频内部空间结构与时间顺序的前提下，让模型拥有了极强的空间和时间边界辨识力。

[统一交错序列] ───► [MaPE 模态边界隔离] ───► [双流专家架构（MoE）] 4阶段极限炼丹:128张显卡打完的“精益战役”

相比于大厂动辄上万张卡闭眼烧钱的“暴力美学”，Lance 的训练过程展现了极高的“财务责任感”。整个生命周期被死死压在最多128张 GPU 预算内，通过4个环环相扣的阶段精细化推进:

阶段1:预训练（1.5T Tokens） —— 狂啃1B 图文对和140M 视频文本对，打牢多模态底座。

阶段2:持续训练（300B Tokens） —— 引入编辑、主体驱动生成、多模态理解数据，激活多任务协同效应。

阶段3:监督微调 SFT（72B Tokens） —— 疯狂注入人类指令，死磕指令遵循和视觉身份（ID）一致性。

阶段4:强化学习 RL（GRPO 算法） —— 采用组相对策略优化，并罕见地搬出 PaddleOCR 作为奖励模型（Reward Model），针对性地暴击 AI 在图片中“文字渲染不准”以及“图文不对齐”的顽疾。

战绩彪炳:3B 战神跨界狂虐7B 巨兽

得益于跨任务的数据协同效应（模型在学生成的过程中加深了理解，在学理解的同时反哺了生成的空间感），3B 体积的 Lance 在各项硬核基准测试(Benchmarks)中斩获了惊人的越级表现:

视频生成（VBench）: 轰下 85.11分 !不仅将同类全能模型 TUNA（84.06）斩于马下，甚至直接超越了 HunyuanVideo(83.33)和 Wan2.1-T2V(83.69)等纯视频生成大模型。

图像生成（GenEval）: 总分跑出 0.90 ，强势杀入全球开源梯队最前列。

视频理解（MVBench）: 斩获 62.0分，将体积比它大一倍的专用理解模型 Show-o2（7B，55.7分）远远甩在身后。

行业震荡:多模态应用部署成本将迎断崖式下跌

Lance 的开源，对于整个生成式 AI、尤其是当前火爆的 AI 短剧、智能体（Agent）协作、互动媒体等赛道而言，是一场大象荡秋千般的产业降维打击。

过去，想要开发一款既能看懂剧本、又能生成分镜，还能根据反馈实时修改画面并保持角色一致性的 AI 工具，开发者必须在后台同时挂载、调度、缝合好几个大模型（一个算 VLM 语义、一个调 Diffusion 图、一个拉时序视频）。这不仅导致系统卡顿、光是多模型之间的管道对齐就能让人崩溃。

现在， Lance3B 用一个大脑实现了“左眼看、右眼编、双手创” 。其极低的参数量意味着企业端侧与服务器端的部署成本、推理延迟和算力消耗将迎来断崖式下跌。目前，该模型的公测环境要求为 Python3.10+、CUDA12.4+，以及最低 40GB 显存（单张消费级显卡或轻量服务器即可轻松驱动）。字节跳动这一波“开源科技春风”，无疑让2026下半场的 AIGC 工业化量产跑得更稳、更快。

主题：生成|大模型|“生成”|“理解”