登录

老黄的Cosmos 3刚发一天,就被一家中国公司反超了


速读:我们可以把RoboArena理解为LMArena的具身机器人版本,只不过,LMArena比的是大模型回答质量,RoboArena比的是机器人策略在真实世界中完成任务的能力。 它代表了大厂对物理AI的一个判断:下一阶段,模型能力的提升不只依赖参数和算力,也依赖能否构建更大规模、更高质量、更贴近机器人行动的数据体系。 在GTC上,黄仁勋反复强调了一个问题:物理AI的数据很难获得。 千寻智能回答的是同一道题,但路径有所不同。
2026年06月03日 09:0

编辑|+0

6 月 1 日,老黄在 GTC 上用了不小的篇幅讲物理 AI 和具身智能,并重磅发布了 Cosmos 3。英伟达将其定义为面向 Physical AI 的最新前沿模型,也是全球首个完全开放的全能模型,原生具备视觉推理、世界生成和动作生成能力。

老黄自豪地表示,Cosmos 3 在全球各大排行榜上位列开放模型第一。

然而仅仅一天后,RoboArena 榜单更新,中国公司千寻智能的 Spirit v1.6 反超 Cosmos 3,登上全球第一。

RoboArena 为何值得关注?

因为它切中了当前机器人基础模型评测的一个核心问题:很多模型可以在仿真环境或静态 benchmark 上表现很好,但一到真实机器人、真实物体、真实误差,就很难稳定复现。

我们可以把 RoboArena 理解为 LMArena 的具身机器人版本,只不过,LMArena 比的是大模型回答质量,RoboArena 比的是机器人策略在真实世界中完成任务的能力。RoboArena 由 UC Berkeley、Stanford、NVIDIA 等机构参与发起,相关论文入选 CoRL 2025 Oral。

具体来看,RoboArena 的机制可以拆成四点: 分布式协作、双盲对决、Elo 式动态排名、开放评测网络。 分布式协作扩大了任务和环境的覆盖面;双盲对决降低了评测中的主观偏见;Elo 排名让榜单像体育赛事一样持续更新;开放评测网络则让更多模型可以被放到同一个真实世界擂台上检验。

因此,RoboArena 的意义在于把具身智能评测从「静态跑分」推向了「真机对抗」。

在这个背景下,千寻智能成为首个在这一由硅谷巨头和顶尖高校共同主导的「客场」榜单上拿下全球第一的中国企业,其意义也不只是一次排名领先,更说明千寻智能在多任务执行、真实环境适应和泛化能力上,已经进入全球第一梯队。

Spirit v1.6 到底凭什么赢?

榜单上的结果,最终只是数字。更有说服力的,还是 Spirit v1.6 在真实任务中的操作表现。我们来看几组双盲对比视频。

第一组任务:打开笔记本

这并不是一次简单抓取。机器人需要先识别笔记本的位置和朝向,再判断从哪里接触、如何施力,以及手部和机械臂如何配合,最后完成翻开动作。中间任何一个环节出错,任务都可能失败。

可以看到,Spirit v1.6 的动作衔接更自然,能够快速完成打开笔记本的任务;相比之下,Cosmos 3 几乎没有形成有效尝试。

第二组任务:把卡皮巴拉放到盘子里

这类任务考验的是机器人对小型物体的识别、定位和精细操作能力。它不仅要判断目标物体在哪里,还要在抓取后保持稳定,并准确放到指定位置。

这一次,Spirit v1.6 依然完成了识别、抓取和放置。虽然在抓取过程中有一次短暂调整,但整体动作链条是连贯的,最终成功完成任务。相比之下,pi 0.5 既没有成功识别目标物体,也未能完成有效抓取。

整体来看,这几组视频比榜单数字更直观地说明了 Spirit v1.6 的优势:它不只是能在评测中拿到更高分,更能在真实任务里把「看见、判断、抓取、放置」这一整套操作链条跑通。

把时间往前倒,这个结果也并不突兀。

今年稍早,Spirit v1.5 已经在 RoboChallenge 真机评测中拿到第一,取得 66.09 分、50.33% 成功率,超过 Physical Intelligence 的 pi 0.5。公开报道显示,v1.5 在多任务连续执行、复杂指令拆解、物体拾取、插花、移动物体等任务上,已经表现出不错的稳定性。

从 v1.5 到 v1.6,时间并不长,但千寻智能又在 RoboArena 上完成反超,这是千寻智能的一套持续迭代机制的结果:持续采真实场景数据,持续看哪里会失败,持续把评测结果喂回训练和工程优化里。

具身智能模型和纯软件模型不一样,不是堆训练规模就能自然变强。物理世界里有摩擦、遮挡、失误、延迟和一堆不确定的东西。越往真实场景走,越看工程组织能力、数据闭环能力 and 迭代速度。

Spirit v1.6 在榜上的表现,说明千寻智能把这套闭环转起来了。

真正的胜负手,

在真实世界数据里

在 GTC 上,黄仁勋反复强调了一个问题:物理 AI 的数据很难获得。

原因并不复杂。互联网视频很多,但绝大多数是第三人称视角;机器人真正需要的,却是第一人称、可行动、可反馈的数据。也就是说,机器人不只要「看过世界」,还要理解自己如何在世界中移动、接触、抓取和改变物体。

Cosmos 3 的目标之一,正是通过 Omniverse、遥操作和视角重投影,缓解机器人领域的数据稀缺问题。它代表了大厂对物理 AI 的一个判断: 下一阶段,模型能力的提升不只依赖参数和算力,也依赖能否构建更大规模、更高质量、更贴近机器人行动的数据体系。

千寻智能回答的是同一道题,但路径有所不同。

千寻智能更强调真实世界数据的持续沉淀。公开信息显示,千寻智能已经自研 7 代轻量化可穿戴数采设备,并在全国 100 多个城市搭建分布式数据采集网络,形成从采集、清洗、标注到质检的完整流程。公司计划在 2026 年内沉淀百万小时级真实世界交互数据。

主题:任务|Cosmos3|机器人