VEGA-3 D：释放视频生成模型中的隐式3 D知识，重塑3 D场景理解与具身交互

速读：生成模型，到底能不能理解世界，或者说，它们能否促进对世界的理解？

2026年04月29日 14:04

研究团队：本工作由华中科技大学（Huazhong University of Science and Technology）与百度（Baidu Inc.）联合完成。

作者列表：Xianjin Wu, Dingkang Liang, Tianrui Feng, Kui Xia, Yumeng Zhang, Xiaofan Li, Xiao Tan, Xiang Bai。

论文标题：Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding

论文链接：https://arxiv.org/abs/2603.19235

仓库链接：https://github.com/H-EmbodVis/VEGA-3D

核心问题：视频生成模型真的理解世界吗？

生成模型，到底能不能理解世界，或者说，它们能否促进对世界的理解？这是我们在推进 Generation Models Know Space 这项研究时，最核心的出发点。

过去在 3D 场景理解这个领域，我们往往习惯于一种思维定势：如果要让模型懂空间，就必须给它显式的 3D 数据，比如点云，或者在系统里硬塞进复杂的几何重建模块。这就导致整个理解链路非常沉重，而且严重受限于高质量的三维标注数据。

但当我们观察这两年飞速发展的视频生成模型时，我们意识到了一个常常被忽视的事实。当一个模型能够自然地生成一段视角切换、包含复杂遮挡关系的视频时，它其实已经在内部默默处理了深度、透视和物理距离。如果它不懂三维几何，生成的画面早就崩塌成了一堆混乱的像素。

所以 Motivation 变得非常清晰且直接：既然这些在大规模无标注视频上训练出的生成模型，为了造出逼真的画面，已经偷偷掌握了物理世界的空间逻辑，我们为什么还要舍近求远，去重新教理解模型学几何？

这篇论文提出了 VEGA-3D ，旨在释放深藏于生成大模型内部的 3D 先验知识。研究表明，生成模型不仅是一个高超的“画师”，更像是一个开箱即用的“空间知识库” 。它将物理规律与几何结构压缩进参数之中，由生成任务催生出的隐式空间表征，具有很强的迁移能力，并能够直接服务于理解任务。

这不仅是一次技术路线的替换，更是一种研究范式的转变。我们不再将“生成”和“理解”视作彼此平行的两条轨道。尤其在具身智能场景下，当机器人需要在复杂物理空间中完成感知、推理与交互时，模型对三维环境的尺度感、几何直觉和空间一致性的把握，往往正是关键瓶颈。而借助生成模型反哺理解，则为突破这一瓶颈提供了一条极具潜力的新路径。

基于这一思路，来自华中科技大学与百度的联合团队设计了 VEGA-3D 框架，用于系统挖掘并利用生成模型中的空间先验，从而提升模型在场景理解、空间推理与具身任务中的表现。

它把物理法则压缩在了自己的参数里，这种为了生成而被迫建立的隐式空间表征极其强大，且可以直接迁移到理解任务中。在具体实现上， VEGA-3D 将视频生成模型（如 Wan2.1）作为 “潜在世界模拟器”，通过自适应门控机制，将生成模型在中间去噪阶段展现出的纯粹 3D 结构先验，与原有的语义特征进行优雅融合。

主题：生成|理解|生成模型|VEGA-3D