NTU曹子昂教授团队：破解3 D标注成本难题，只需一张图片丨CVPR 2026

速读：在生成式AI进入3D内容生产之后，行业最先解决的是“看起来像不像”的问题：一个模型能不能从文字或图片生成外观完整、纹理逼真、形状合理的3D物体。

2026年06月05日 19:

PhysX-Anythingt：可从一张照片自动生成可用于机器人训练的物理 3D资产。

作者丨郑佳美、樊天骄

编辑丨郑佳美

在生成式 AI 进入 3D 内容生产之后，行业最先解决的是“看起来像不像”的问题：一个模型能不能从文字或图片生成外观完整、纹理逼真、形状合理的 3D 物体。

但随着机器人、具身智能、数字孪生、AR / VR 和工业仿真的发展，真正制约应用落地的矛盾已经变了。现实世界中的物体不是静态摆件，而是带有尺度、材料、重量、关节、摩擦、碰撞和功能关系的物理对象。

一个柜子不仅要有柜门，还要知道门轴在哪里、能向哪个方向打开；一副眼镜不仅要有镜框和镜腿，还要知道镜腿能绕哪个关节折叠；一个水龙头不仅要外形相似，还要能被旋转、能和机械手发生接触、能在仿真器里表现出合理运动。

换句话说，未来的 3D 生成如果只停留在“生成一个好看的模型”，就很难支撑机器人训练、交互式场景构建和真实物理仿真。

这正是当前 3D 资产生成面临的核心断层：视觉资产越来越容易生成，但仿真资产依然高度依赖人工建模和手动标注。这个过程成本高、效率低，也很难规模化扩展到家庭、工厂、商场、医院等复杂真实场景。

因此，行业真正需要的不只是“图像到 3D ”，而是“图像到可交互、可运动、可仿真的物理 3D 资产”。

在这种背景下，南洋理工大学曹子昂团队提出了《PhysX-Anything: Simulation-Ready Physical 3D Assets from Single Image》。试图把单张真实图像直接转化为仿真可用的物理 3D 资产。

不仅恢复物体外形，还进一步推断部件结构、关节关系、材料属性、真实尺度、功能用途和文本描述，并输出 URDF、XML 等可直接进入物理引擎的格式。

PhysX-Anything 的意义不只是让 3D 生成结果更精细，而是把 3D 生成从“视觉建模”推进到“物理建模”，让生成结果真正具备被机器人操作、被仿真系统调用、被交互场景使用的能力。

对于家庭机器人来说，这意味着它可以从一张柜子照片生成可开合的柜门资产，用于学习开门和抓取；对于 AR / VR 来说，这意味着虚拟物体不再只是摆在场景里的装饰，而是可以被用户真实交互；对于工业仿真和数字孪生来说，这意味着大量真实设备和日常物体有机会从照片快速转化为可运行的仿真对象。

PhysX-Anything 的关键价值正在于此：它把 3D 资产生成的目标从“看起来真实”进一步推向“用起来真实”。