VEGA-3 D:释放视频生成模型中的隐式3 D知识,重塑3 D场景理解与具身交互

研究团队 : 本工作由华中科技大学(Huazhong University of Science and Technology)与百度(Baidu Inc.)联合完成。
作者列表 :Xianjin Wu, Dingkang Liang, Tianrui Feng, Kui Xia, Yumeng Zhang, Xiaofan Li, Xiao Tan, Xiang Bai。
论文标题:Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding
论文链接:https://arxiv.org/abs/2603.19235
仓库链接:https://github.com/H-EmbodVis/VEGA-3D
核心问题:视频生成模型真的理解世界吗?
生成模型,到底能不能理解世界,或者说,它们能否促进对世界的理解?这是我们在推进 Generation Models Know Space 这项研究时,最核心的出发点。
过去在 3D 场景理解这个领域,我们往往习惯于一种思维定势:如果要让模型懂空间,就必须给它显式的 3D 数据,比如点云,或者在系统里硬塞进复杂的几何重建模块。这就导致整个理解链路非常沉重,而且严重受限于高质量的三维标注数据。
但当我们观察这两年飞速发展的视频生成模型时,我们意识到了一个常常被忽视的事实。 当一个模型能够自然 地生成 一段视角切换、包含复杂遮挡关系的视频时,它其实已经在内部默默处理了深度、透视和物理距离。 如果它不懂三维几何,生成的画面早就崩塌成了一堆混乱的像素。
所以 Motivation 变得非常清晰且直接:既然这些在大规模无标注视频上训练出的生成模型,为了造出逼真的画面,已经偷偷掌握了物理世界的空间逻辑,我们为什么还要舍近求远,去重新教理解模型学几何?
这篇论文提出了 VEGA-3D ,旨在释放深藏于生成大模型内部的 3D 先验知识。研究表明, 生成模型不仅是一个高超的“画师”,更像是一个开箱即用的“空间知识库” 。它将物理规律与几何结构压缩进参数之中,由生成任务催生出的隐式空间表征,具有很强的迁移能力,并能够直接服务于理解任务。
这不仅是一次技术路线的替换,更是一种研究范式的转变。我们不再将“生成”和“理解”视作彼此平行的两条轨道。尤其在具身智能场景下,当机器人需要在复杂物理空间中完成感知、推理与交互时,模型对三维环境的尺度感、几何直觉和空间一致性的把握,往往正是关键瓶颈。而借助生成模型反哺理解,则为突破这一瓶颈提供了一条极具潜力的新路径。
基于这一思路,来自华中科技大学与百度的联合团队设计了 VEGA-3D 框架,用于系统挖掘并利用生成模型中的空间先验,从而提升模型在场景理解、空间推理与具身任务中的表现。
它把物理法则压缩在了自己的参数里,这种为了生成而被迫建立的隐式空间表征极其强大,且可以直接迁移到理解任务中。在具体实现上, VEGA-3D 将视频生成模型(如 Wan2.1)作为 “潜在世界模拟器”,通过自适应门控机制,将生成模型在中间去噪阶段展现出的纯粹 3D 结构先验,与原有的语义特征进行优雅融合。