击败主场霸主英伟达与PI!千寻智能登上具身智能「奥林匹克」最高领奖台
榜单登顶同时,千寻官宣完成15亿元A+轮融资。
作者丨向 欣
编辑丨高景辉
在竞技体育中,有一种胜利含金量最高——在对手主场、用对手制定的规则、击败对手。
刚刚,一家中国公司在北美具身智能的“奥林匹克”赛场上,完成了这一壮举。
由UC Berkeley、斯坦福和英伟达联合发起的 全球具身智能实战评测平台RoboArena ,被誉为机器人领域的“Chatbot Arena”。RoboArena最新榜单显示,千寻智能自研的具身基座模型 Spirit v1.6 ,在技术全能项目中 力压英伟达最新模型Cosmos3与Physical Intelligence (以下简称PI) Pi0.5 , 排名全球第一 , 成为前三名中唯一的中国具身模型。
有趣的是,英伟达和PI不仅是参赛者,还是赛事的设计方。就在不久前的NVIDIA GTC Taipei 2026大会上,英伟达还专门介绍,自家最新发布的 NVIDIA Cosmos 3模型在RoboArena上排名第一 。赛事主办方亲自为榜单站台。
而现在 榜首换人 了。千寻这次登顶,颇有种踢馆成功的意味。以前中美在具身智能赛场是各自练兵,今天千寻直接去美国队的主场,拿了块全能金牌。
同时,千寻智能在资本市场上也获得了顶薪续约。千寻智能今日正式官宣完成 15亿元A+ 轮融资, 三个月融资四轮,刷新具身智能行业融资速度记录 , 股东包含一线美元基金、大型产业投资方以及国资基金,老股东持续加码,构筑起顶级财务PE、国际美元基金、实业产业资本、各地方国资等全方位合围的顶配资本阵容。
至此,千寻今年累计融资金额已近 50亿元 。
技术登顶与资本顶配两件事放在一起看,背后传递出的信息远比表面看到的更加丰富。
过去一年,具身智能领域融资纪录不断刷新,榜单高分层出不穷,但“刷榜”现象让这些成绩的真实含金量备受质疑。
RoboArena受到关注,正是因为试图解决这个问题。它把具身Benchmark从标准化考试变成了一场 防作弊、重泛化、难以刷分的全球实战擂台赛 ,模型需要面对完全未知的场景和物体,实打实地考验泛化性与稳定性。
千寻的模型登顶,也足以让整个行业重新审视中国玩家的位置。
长期以来,具身智能领域最重要的话语权主要掌握在美国头部机构手中。如今,中国企业已在模型能力和落地速度上快速追赶,实现并跑甚至领跑。
在具身智能的技术对决中,以千寻智能为代表的中国力量已经具备了与美国顶尖玩家正面掰手腕的底气。
大额融资的持续落地,则让这种技术优势有机会进一步转化为数据优势和场景优势。中国具身智能企业,会跑得越来越快。
01
具身智能的奥林匹克全能赛RoboArena,为什么难拿冠军?
具身智能行业一直存在一个现实问题:评测成绩与真实世界表现并不能简单画等号。榜单高分与真实世界的泛化落地之间,横亘着一条巨大的鸿沟。
问题出在评测方式上。具身智能领域建立了大量Benchmark。不同榜单覆盖仿真、真机、导航、操作、长程任务以及VLA模型、世界模型等不同条件和方向,为研究者提供了统一的评价体系,也推动了技术进步。
但 标准化评测天然存在局限 。为了保证可重复性,大多数榜单都会固定场景、固定任务和固定评价规则。模型经过反复训练后,可以逐渐适应这些测试条件。
于是行业开始出现 “刷榜”现象 , 不少公司针对榜单进行专项优化,从而刷出高分,但这与具身智能所追求的核心能力“泛化”背道而驰。结果是,某些模型能够在特定任务上取得极高分数,但换环境、物体或者操作顺序,表现可能大幅下降。
这种做法就像学生 靠题海战术拿满分 , 换个没做过的题目就束手无策。 模型越来越会考试,却未必越来越会干活 。
PI的具身模型核心研究员Karl Pertsch曾犀利地评价这类榜单:“注定是徒劳”。
对于需要进入工厂、门店和家庭的机器人来说,此类成绩参考价值不够高。“刷榜”现象也削弱了榜单的说服力。
RoboArena的突破性在于重新设计了评测逻辑,与大多数Benchmark追求标准化不同,RoboArena把评测重点放在 泛化能力上 。 模型无法提前适配固定场景,每一次测试都需要面对新的环境、新的物体和新的任务组合。
这份榜单由 UC Berkeley、斯坦福、英伟达 联合发起,是具身智能领域首个国际公开性评测平台,榜单规则来自行业最核心的一批前沿技术研究者。
值得注意的是, PI的联合创始人Sergey Levine、核心研究员Karl Pertsch 也是该测试平台的核心设计者。