登录

单张图片生成可行走3 D世界!NVIDIA开源Lyra 2.0,彻底解决长视频“空间遗忘”和“时间漂移”难题


速读:AIbase编辑认为,这一发布不仅提升了视频生成模型的时空一致性,更为物理AI、游戏开发和虚拟环境构建提供了实用资产管道。 传统长时程视频生成模型在相机长距离移动时,常常出现“空间遗忘”(spatialforgetting)——模型无法记住先前生成区域的细节,导致场景不一致;。 Lyra2.0的模型权重已在HuggingFace(nvidia/Lyra-2.0)开放,代码仓库同步上线GitHub(nv-tlabs/lyra),采用Apache2.0许可,支持商业使用。 生成一致的仿真环境,直接导入IsaacSim;。 3D资产生成管道:。
2026-04-20 11:11

NVIDIA Research 近日在 Hugging Face 平台正式发布 Lyra2.0 框架,这一开源项目标志着 AI 生成式3D 世界构建技术迈向新高度。从单张输入图像出发,Lyra2.0能够生成持久一致、可自由探索的大型3D 场景,支持实时渲染、机器人仿真和沉浸式应用。

AIbase 编辑认为,这一发布不仅提升了视频生成模型的时空一致性,更为物理 AI、游戏开发和虚拟环境构建提供了实用资产管道。

QQ20260420-110843.png

核心挑战与突破:告别空间遗忘与时间漂移

传统长时程视频生成模型在相机长距离移动时,常常出现“ 空间遗忘 ”(spatial forgetting)——模型无法记住先前生成区域的细节,导致场景不一致;同时还会产生“ 时间漂移 ”(temporal drifting)——物体位置、外观随时间逐渐偏移,严重影响后续3D 重建。

Lyra2.0针对这两大痛点提出创新解决方案:

空间记忆机制 :系统为每一帧维护3D 几何信息,但仅用于信息路由——检索相关历史帧并建立密集对应关系,而外观合成仍依赖强大的生成先验,避免几何误差积累。

自增强训练策略 :在训练中让模型接触自身生成的退化输出,教会它主动纠正漂移而非继续传播,从而实现更长的3D 一致视频轨迹。

通过这一两阶段设计,Lyra2.0能够从单张图像和用户定义的相机轨迹出发,迭代生成长序列视频片段,并将其可靠地提升为高质量3D 高斯溅射(3D Gaussian Splatting)或网格模型,支持实时渲染和进一步仿真。

使用流程:从图片到可探索3D 世界

输入一张图像(可选搭配文本提示);

通过交互式3D 浏览器定义相机移动轨迹;

模型自回归生成相机控制的长视频片段;

将视频序列提升为显式3D 表示(点云、Gaussian 或网格),并反馈用于持续导航;

最终导出可直接用于 Unity、Unreal、Isaac Sim 等环境的资产。

实验显示,Lyra2.0在长视频生成和3D 场景重建指标上超越了 GEN3C、CaM、Yume-1.5等多款现有方法,尤其在场景规模和一致性上表现出色。生成的场景可达数十米范围,用户能自由“走回去”、环顾四周,甚至投放机器人进行实时交互。

开源与应用价值:加速物理 AI 与虚拟世界开发

Lyra2.0的模型权重已在 Hugging Face(nvidia/Lyra-2.0)开放,代码仓库同步上线 GitHub(nv-tlabs/lyra),采用 Apache2.0许可,支持商业使用。底层视频骨干基于 Wan-14B 等强大扩散模型,重建阶段结合 Depth Anything V3等工具,确保输出高质量且实用。

这一框架特别适用于:

embodied AI 与机器人训练 :生成一致的仿真环境,直接导入 Isaac Sim;

游戏与沉浸式内容 :快速构建可探索的虚拟世界;

3D 资产生成管道 :从概念图到可编辑网格,一站式完成。

相比早期版本,Lyra2.0在场景持久性和可扩展性上实现显著飞跃,为“世界模型”从演示走向实用资产铺平道路。

AIbase 编辑点评:NVIDIA 此次开源不仅展示了生成式 AI 在时空建模上的技术突破,更体现了行业向开放生态的持续投入。随着 Lyra2.0等工具的普及,开发者将能更高效地构建大规模、可交互的3D 世界,进而推动机器人、自动驾驶和元宇宙应用的加速落地。

项目页面、论文及模型已全部公开,感兴趣的开发者可立即前往 Hugging Face 和 GitHub 体验。

论文地址:https://huggingface.co/papers/2604.13036

模型地址:https://huggingface.co/nvidia/Lyra-2.0

主题:生成|Lyra2.0|视频生成模型