NVIDIA推出Cosmos 3世界模型,黄仁勋:物理AI爆发时代近在眼前
新浪科技讯 6月2日下午消息,NVIDIA近日发布NVIDIA Cosmos™ 3——面向物理AI的开放世界基础模型,宣布基于突破性的混合 Transformer (Mixture-of-Transformers)架构,将视觉推理、世界生成和动作预测集成至单一系统中,解决了物理 AI 的一项核心难题:使 机器人 、智能汽车或视觉智能体能够在训练数据有限和仿真堆栈碎片化的情况下,在现实世界中进行泛化。

据悉,Cosmos 3能够以领先的物理精度原生理解并生成文本、图像、视频、环境音和动作,将物理 AI 的训练和评估周期从数月缩短至数天。该模型的混合Transformer架构将推理Transformer与专家生成Transformer相结合,使得Cosmos 3 能够在生成视频和动作轨迹前,完成对对象交互、运动及时空关系的解析。
在物理 AI 基准测试中,Cosmos 3 系列模型取得了领先结果。在Artificial Analysis、Physics-IQ、PAI-Bench 和R-Bench 的世界生成精确性方面,RoboLab 和RoboArena 的动作策略方面,以及VANTAGE-Bench 和TAR排行榜的视觉理解方面,Cosmos 3均位居榜首。
在最大型的多模态物理 AI 数据集之一上进行训练——包括数十亿条文本、图像、视频、声音和动作轨迹样本中,该模型为开发者提供了强大的预训练基础,助力其以更少的数据和更低的训练成本构建物理AI系统。
NVIDIA 创始人兼首席执行官黄仁勋表示:“得益于多模态推理语言、视觉和世界模型领域的多项突破,物理AI爆发的时代已近在眼前。Cosmos 3系列开放前沿全模态模型,助力开发者在构建机器人、智能汽车和视觉AI方面实现了代际飞跃,使其能够在物理世界中完成感知、推理、规划并采取行动。”(文猛)