登录

南洋理工团队推出首个支持物理仿真的三维生成模型!生成资产可直接部署于机器人训练


速读:南洋理工团队推出首个支持物理仿真的三维生成模型! 首个支持物理仿真的三维生成模型来了! 仅凭一张普通照片,AI就能直接生成3D。 生成资产可直接部署于机器人训练2026年06月21日20:34DeepTech深科技来源:DeepTech深科技。 为了训练该框架,研究人员构建了首个通用仿真就绪3D数据集PhysXVerse。
2026年06月21日 20:34

首个支持物理仿真的三维生成模型来了 !

仅 凭 一张普通 照片,AI 就能 直接生成 3D  数字 模型,并 预测 重量、软硬、关节活动等 真实 的 物理属性 。也就是说, AI  生成的 不 再 只是 与照片描述 长得 相似的 资产 ,而是真的能够 与 物理世界 进行 交互,并有望 对具身智能、物理 AI、 AI for  S cience 的模型 直接 进行 训练。

近期,新加坡南洋理工大学 刘子纬 副 教授 团队开发了 统一 的 三维生成框架 PhysX-Omni, 打通了 刚体、可变形体、 关节体(铰链 体 ) 三 类资产的物理级  3D  生成。 研究人员 发明了一种模板化游程编码, 不仅 直接让语言模型读懂三维结构,还 显著提升了生成性能。

“ 之前 3D 模型生成需要进行实际扫描和采集,但由于价格昂贵且无法规模化, 并不 适用于大模型的可扩展性。 ” 刘子纬对 DeepTech 表示 。 而  PhysX-Omni  开启 了 近乎无穷无尽的生产模式,相当于做数据基建,不断为 物理 AI 生产提供训练素材 。

图丨 PhysX-Omni 能够生成涵盖刚体、可变形物体及关节体的详细与通用 3D 资源,生成适用于下游应用的仿真就绪物理资产 ( 来源: arXiv )

PhysX-Omni  的 模型仅 7B (Qwen2.5-VL-7B-Instruct) ,总体推理成本低 。据研究人员预估,其成本 是 传统 仿真软件的 1/10 到 1/20。 更值得关注的是,其 绝对尺度预测误差 从 300 左右降到 2.79, 提升了 两个数量级。 这 意味着, AI 生成的椅子不再是 “ 大 约 这么 高 ” ,而是 精准的 “ 就是 65 厘米高 ” 。

PhysX-Omni 在仿真就绪场景生成与机器人策略学习等 场景中表现出应用 潜力,包括具身智能、物理仿真、 游戏、影视 等领域 。 相关论文以“ PhysX-Omni: Unified Simulation-Ready Physical 3D Generation for Rigid, Deformable, and Articulated Objects ”为题,发表在预印本网站  arXiv [1]。

让 AI 学会物理常识: 从 “ 看得美 ” 到 “ 能交互 ”

如果我们想用 AI  生成一个箱子,大部分模型 并 不知道 用 多大的力去推它,在有风吹的情况下它会不会倒,或移动多少 距离 。 现有 3D 模型生成 类似于 “ 真空中的球形鸡 ”,尽管 整体生成 得 好看 ,但与外界并无任何交互,常 出现 穿模、漂浮、关节乱转 等问题 。

在 过去 的三维领域,刚体、可变形体 和关节体 通常各自研究。研究团队发现,这三个子领域本质上可能是同一个问题,因此 除了数字世界 可用同 一套 代码, 物理世界背后的结构其实也有可能用一套代码 来 表示。

这项研究相当于为AI提供了物理常识,将 3D 模型生成从 生成得好看,转变为 能够交互 和 好用。 不仅 能 促进跨类型学习,还 降低了开发成本和门槛。

以机器人 叠衣服 为例 ,衣服是个 可变 形 物体,叠完后 将它 放到箱子里,是刚体; 然后打开 衣柜,衣柜则是关节体 。 当 知道怎么去叠衣服,可能反过来能帮助做一些 其他的任务 。

图丨 给定一张完整或部分遮挡的图像,PhysX-Omni 首先推断出高层次的整体信息,随后采用多轮生成流程生成详细的部件级几何结构。由于全局表示与局部表示之间存在固有关联,这些输出结果可直接整合为可用于仿真的物理三维资源 ( 来源: arXiv )

强化学习之 父 理查德·萨顿(Rich Sutton) 在 经典文章 《苦涩的教训》(The Bitter Lesson) 中 提到,只要数据量足够多,中间产物可能会自然 地 涌现出来,因此只需要定好最终目标。 “我们最原初的设计哲学 也受到了这种观点的启发, 希望尽量 实现 端到端 的 学习 。 ” 刘子纬表示。

以往研究 要么压缩丢细节,要么用分割模块引入错误。PhysX-Omni  使用了新的 几何表达方式, 它将 每个部件的三维网格沿Z轴切成一层层二维掩膜, 基于 经典的游程编码,再将 每个切片压缩 为 文本串。

其 模板 RLE 表示既保留了高分辨率的结构信息, 又 绕过 了 中间表征 进行 直接建模, 从而减少了误差累积 。 新编码方式最直观的 变化 表现 在 两方面:一是高度保持 3D  细节;二是高效, 即 编码同样的信息,可 比 之前工作再少 1/4 到 1/5 的  tokens 。

图丨 PhysXVerse 的统计与分布 ( 来源: arXiv )

为了训练 该 框架, 研究人员 构建了 首个通用 仿真就绪 3D 数据集 PhysXVerse。它从 PartVerse 的精细标注中筛选过滤,保留了 8,700 个 以上 高质量资产,覆盖 2,900 多个室内外类别,从直升机、坦克、赛车到摩天大楼和玩具,部件数量从单个刚体延伸到 65 个零件的复杂铰接系统。

每个资产 在 具有 几何网格 之外 ,还通过人工校验的方式 将 绝对尺寸、材质类型、功能语义、关节类型和运动范围等物理标注 补齐 。

误差骤降  100 倍 ,一张照片 生成 仿真级 3D 资产

但 是, 仅具有 数据和模型还不够,为进一步在开放环境中全面 、 灵活 地 评估生成与理解能力, 研究团队还 提出 了 评测基准  PhysX-Bench,其涵盖 了 几何、绝对尺度、材料、可供性 ( 物体可被如何操作 ) 、运动学与描述 六 个关键属性维度。

这套评测巧妙 之处在于 ,并 非 依赖昂贵的真实标注,而是 用仿真测物理,不仅 避免了 人工标注的主观性,也更能 更真实地 反映资产在实际部署中的表现。

PhysXVerse 数据集 结果显示 ,PhysX-Omni 的 PSNR  为  21.52,Chamfer Distance 降至 2.95,F-score 达 91.28,几何精度全面超越此前最优方法。更 值得关注的是 绝对尺度误差:从 PhysXGen 的 309.31 骤降至 2.79,几乎 提升了 两个数量级 。

“PhysX-Omni在 绝对尺度误差 的 表现有些出乎我们的意料。 ” 刘子纬表示。这与研究团队的两个观察密切相关。首先,研究人员发现此前很多数据天然带幻觉,因此他们将数据进行了重新编排和 清洗 。其次, 通过新编码方式,它对绝对尺度的分辨率 显著 提高, 进而更 精准 地理解 真实世界 的 物体尺寸 。

图丨 ( a ) 不同几何表示方法在三维建模中的对比 ;( b )  PhysX-Omni 的详细几何表示示意图 ( 来源: arXiv )

此外,这可能也与大模型本身的潜能有关,通过激发让它表现出来。这个观察在近期 Meta 的相关研究中也进行了印证,其发现用一个 视觉语言模型可以学到很多很强的 3D 能力, 而 不需要一个专门的 3D  专家模型。

在 PhysX-Bench 的开放场景评估中,PhysX-Omni 在材料、可供性、运动学和描述等维度 都创造了 最佳成绩 纪录,表 现出强泛化能力。

此外,研究人员 也 在 大量的真实场景案例 中进行了验证 ,这类样本 大部分 无法获取 大 规模 的 3D 标注,但可 通过人工标注的方式制作少量标注数据,用于结果判别 。 多组对照验证 显示 ,实测结果与仿真数据集得出的结论能够相互佐证。

“ 当前该领域的发展阶段,和大语言模型发展早期十分相似 。 早期研究者普遍依靠各类仿真数据、文本生成数据开展实验,后续业界才逐步搭建起各类真实世界基准测试集。 ” 刘子纬表示。 这项研究 也为后续相关研究提供 新的启发 ,尤其适用于三维物理仿真领域的评测工作。

团队还验证了 PhysX-Omni 在下游任务中的实际价值。 由于 这套资产针对目前市面上主流的仿真器完成了适配定制,因此其可将 生成的资产 一键 导入 到 物理仿真器,用于机器人操作策略学习。 在 包括 打开马桶盖、操作咖啡机、旋转椅子、关闭柜门等接触丰富的交互任务 中 ,生成的资产在动态交互中 表现出 结构稳定和物理一致 性 ,无需任何人工后处理。

此外,结合深度估计和图像分割技术,PhysX-Omni 还能从单张场景照片出发,重建 3D 布局并自动填充仿真就绪资产,实现场景级别的物理仿真环境构建。这 预示着, 未来机器人训练、具身智能研究 或许可以 不再耗费大量人力搭建虚拟场景, 对 整个仿真流程 取而代之的 正 是 一张实拍照片。

机器人训练的新 “ 燃料 ” :AI 开始批量生产物理世界

过去, 行业内做具身智能/机器人训练的三条主流技术路线 是 :仿真、人类数据与 实体真机实操 。 而仿真方案之所以没有真正“用起来”,正是因为 物理仿真效果差 和 真实度不足 。这项研究 利用自研资产开展具身智能策略学习相关实验,结果证实仿真能够有效优化智能策略,验证了仿真方案 的 实用价值。

从应用角度来看,该技术可能 率先在 游戏与影视工业( AR、VR ) 、交互内容类 场景落地 ,它 能够 与 所有资产进行真实物理交互,并可 缩短物理特效和互动场景的制作周期 。

随着技术的发展 ,它 可能应用在 具身智能 领域 ,成为 连接识别物体与操作物体的桥梁, 让AI真正理解和实现更真实的物理特性、精细程度,并能够与物理世界交互。更长远地看, 如果可将 物理仿真的精度 进一步 提升, 该技术还可能在 AI for  S cience 领域 替代部分高成本的实体科学实验 。

据了解, 目前 大晓机器人 公司 已将  PhysX-Omni  应用于其 仿真平台 。 此外,也有一些 硅谷 初创 公司 对这项技术表现出 浓厚 兴趣。 在 接下来的研究阶段中,研究团队计划继续探索如何让 长尾数据高效学习,如何 将物体级建模扩展 到场景级建模, 并让物体摆放方式的关系更合理,以更接近实际应用 。

参考资料:

1. https://arxiv.org/abs/2605.21572

注:封面/首图由 AI 辅助生成

主题:生成|模型|PhysX-Omni|3D|仿真|关节体