ICLR 2026 I英伟达&普渡大学用agent闭环实现文生3 D
大模型正在进入 “Agent 时代”
大模型正在从 “会说会写” 走向 “会规划、会执行” 的 Agent 时代。对具身智能来说,这种变化尤其关键。因为真正限制机器人和智能体能力上限的,很多时候并不是算法本身,而是现实世界中过高的试错成本:一次抓取失败、一次路径规划失误,代价都远高于在虚拟环境中的反复迭代。也正因如此,一个物理合理、结构真实、能够支撑交互和仿真的 3D 世界,正变得越来越重要。
从一句文本描述直接生成一个真正 “能用” 的三维场景,远比生成几张好看的图片更难。一个场景是否可用,不仅取决于里面有没有桌子、椅子和书架,而且取决于这些物体之间的关系是否合理:杯子能不能真正放在桌面上,书能不能被摆进书架里,椅子是不是面向一个符合使用常识的位置,整个空间会不会出现穿插、漂浮和不稳定支撑。换句话说,3D 场景生成最难的地方,从来不是 “生成资产”,而是让空间关系看起来像真实世界,并且真的能够服务于交互、仿真和具身智能任务。
围绕这一问题,来自英伟达 Cosmos Lab 与普渡大学的研究者提出了 Scenethesis(ICLR 2026)。与其过拟合小样本的 3D 场景数据,他们换了一个思路:把语言、视觉和物理约束组织成一个可以自我迭代的 Agent 闭环系统,让文本生成 3D 场景这件事,不再只是一次性的 “生成”,而更像一个不断规划、检查、修正的过程。
论文标题:Scenethesis: A Language and Vision Agentic Framework for 3D Scene Generation
文章链接:https://arxiv.org/pdf/2505.02836
英伟达网站:https://research.nvidia.com/labs/dir/scenethesis/
可交互三维场景生成的两个长期困境
过去几年里,可交互 3D 场景生成大致沿着两条路线发展。
第一类方法依赖 3D-FRONT 等室内数据集训练模型,在室内布局上已经取得了不少进展,但它们的能力往往也被训练分布牢牢锁住了:会摆客厅和卧室,不代表能自然泛化到其他室内布局,甚至街道、海滩或公园等室外场景;能处理常见家具关系,也不意味着能稳定建模 “小物体放置于大物体中” 这类更细粒度、更长尾的空间关系。
另一类方法则开始借助大语言模型做开放式布局规划。语言模型的优势是组合能力强、语义覆盖广,能够根据文本描述快速搭出场景框架,但它毕竟运行在符号空间里,不在几何空间里。于是我们经常看到这样的结果:物体类别是对的,关系描述也大体没错,可一旦落到真实三维空间,就会出现椅子朝墙、柜子挡窗、物体浮空甚至彼此穿插等不符合常识的现象。
核心问题:如何有效生成 “空间物理真实的 3D 场景”?
Scenethesis 的出发点,正是在这两类路线之间找到一个新的结合方式。研究者注意到,语言模型擅长的是语义规划,却缺少对真实空间的直觉;而视觉模型虽然不会直接 “理解” 场景逻辑,却天然携带大量现实世界的空间统计先验。
因此,这项工作的核心并不是把几个模块简单拼起来,而是让它们在一个闭环里各司其职:先由语言模型做粗粒度规划,再借助视觉模块把抽象的语义关系落到更真实的空间布局中,随后引入物理优化去消除穿模和不稳定支撑,最后再由判断模块检查整个场景是否满足常识与一致性要求,不满足就继续修复。
主题:语言模型