ICLR 2026 I英伟达&普渡大学用agent闭环实现文生3 D

速读：换句话说，3D场景生成最难的地方，从来不是“生成资产”，而是让空间关系看起来像真实世界，并且真的能够服务于交互、仿真和具身智能任务。

2026年05月08日 17:06

大模型正在进入 “Agent 时代”

大模型正在从 “会说会写” 走向 “会规划、会执行” 的 Agent 时代。对具身智能来说，这种变化尤其关键。因为真正限制机器人和智能体能力上限的，很多时候并不是算法本身，而是现实世界中过高的试错成本：一次抓取失败、一次路径规划失误，代价都远高于在虚拟环境中的反复迭代。也正因如此，一个物理合理、结构真实、能够支撑交互和仿真的 3D 世界，正变得越来越重要。

从一句文本描述直接生成一个真正 “能用” 的三维场景，远比生成几张好看的图片更难。一个场景是否可用，不仅取决于里面有没有桌子、椅子和书架，而且取决于这些物体之间的关系是否合理：杯子能不能真正放在桌面上，书能不能被摆进书架里，椅子是不是面向一个符合使用常识的位置，整个空间会不会出现穿插、漂浮和不稳定支撑。换句话说，3D 场景生成最难的地方，从来不是 “生成资产”，而是让空间关系看起来像真实世界，并且真的能够服务于交互、仿真和具身智能任务。

围绕这一问题，来自英伟达 Cosmos Lab 与普渡大学的研究者提出了 Scenethesis（ICLR 2026）。与其过拟合小样本的 3D 场景数据，他们换了一个思路：把语言、视觉和物理约束组织成一个可以自我迭代的 Agent 闭环系统，让文本生成 3D 场景这件事，不再只是一次性的 “生成”，而更像一个不断规划、检查、修正的过程。

论文标题：Scenethesis: A Language and Vision Agentic Framework for 3D Scene Generation

文章链接：https://arxiv.org/pdf/2505.02836

英伟达网站：https://research.nvidia.com/labs/dir/scenethesis/

可交互三维场景生成的两个长期困境

过去几年里，可交互 3D 场景生成大致沿着两条路线发展。

第一类方法依赖 3D-FRONT 等室内数据集训练模型，在室内布局上已经取得了不少进展，但它们的能力往往也被训练分布牢牢锁住了：会摆客厅和卧室，不代表能自然泛化到其他室内布局，甚至街道、海滩或公园等室外场景；能处理常见家具关系，也不意味着能稳定建模 “小物体放置于大物体中” 这类更细粒度、更长尾的空间关系。

另一类方法则开始借助大语言模型做开放式布局规划。语言模型的优势是组合能力强、语义覆盖广，能够根据文本描述快速搭出场景框架，但它毕竟运行在符号空间里，不在几何空间里。于是我们经常看到这样的结果：物体类别是对的，关系描述也大体没错，可一旦落到真实三维空间，就会出现椅子朝墙、柜子挡窗、物体浮空甚至彼此穿插等不符合常识的现象。

核心问题：如何有效生成 “空间物理真实的 3D 场景”？

Scenethesis 的出发点，正是在这两类路线之间找到一个新的结合方式。研究者注意到，语言模型擅长的是语义规划，却缺少对真实空间的直觉；而视觉模型虽然不会直接 “理解” 场景逻辑，却天然携带大量现实世界的空间统计先验。

因此，这项工作的核心并不是把几个模块简单拼起来，而是让它们在一个闭环里各司其职：先由语言模型做粗粒度规划，再借助视觉模块把抽象的语义关系落到更真实的空间布局中，随后引入物理优化去消除穿模和不稳定支撑，最后再由判断模块检查整个场景是否满足常识与一致性要求，不满足就继续修复。

主题：语言模型