视觉强≠能干活!清北普林斯顿等开源WorldArena,世界模型评测被颠覆
机器之心发布
当世界模型生成的视频足以「以假乱真」,为何机器人依然「有眼无脑」 ?
2026 年 2 月 13 日,一则来自具身智能前沿的重磅消息引发学界与产业界震动:
由清华大学、北京大学、香港大学、普林斯顿大学、中科院、上海交通大学、中国科学技术大学、新加坡国立大学等顶尖机构联合推出的 WorldArena —— 首个面向具身世界模型的「功能 + 视觉」统一评测体系 ,正式面向全球开源发布。
这不是又一套「比谁画得真」的榜单,而是一面照向世界模型本质的镜子 。
🔥 爆点直击:视觉满分,任务零分?
WorldArena 首次撕开「美丽视频」的伪装
「很多模型的生成视频,人眼看几乎完美,但让它真正指挥机器人抓个杯子 —— 立刻露怯。」
WorldArena 研究团队直言: 当前世界模型评测被「视觉内卷」绑架太久 ,谁的视频更清晰、更流畅、更像好莱坞特效,谁就得分高。但真实世界从来不是电影 —— 机器人需要的是 物理规律的理解、动作轨迹的精度、多步决策的稳定 ,而非一帧帧精美的「幻灯片」。
WorldArena 首次用数据证明:视觉质量与任务执行能力,相关性仅有 0.36 !
这意味着: 一个模型可以生成奥斯卡级视频,却在真实任务中几乎「失能」 。
核心创新:从「看起来真实」到「用起来可靠」
WorldArena 不是对现有评测的修修补补,而是一次 评测范式的根本重构 。
✅ 创新一:六维视觉评测,不止于「好不好看」
视觉不再是「单一审美」,而是拆解为 视觉质量、动作质量、内容一致性、物理遵循性、3D 准确性、可控性 六大维度。尤其是 物理遵循性 与 3D 空间理解 ,被提升到与画质同等重要的地位 —— 因为机器人不信「魔术」,只信物理 。
✅ 创新二:三大具身任务,直接拷问「能不能用」
WorldArena 在全球范围内 首次将世界模型置于真实的具身任务流水线中进行压力测试 :
作为数据生成引擎 :它合成的轨迹,能否训练出更好的策略模型?
作为策略评估器 :它对环境动态的建模,是否与真实物理引擎高度相关?
作为行动规划器 :它能否闭环执行长时序、多步交互任务?
结果令人警醒 :多数视觉高分模型,在任务评测中「溃不成军」。
而少数以 动作条件建模 为核心的模型(如 CtrlWorld),虽视觉非顶尖,却在策略评估相关性上高达 0.986 ,几乎媲美真实环境。
📊EWMScore:一个分数,对齐人类感知与模型能力
WorldArena 还推出了 EWMScore 综合评分体系 , 将多维客观评测指标 统一映射为一个可横向对比的分数 。
更关键的是: EWMScore 与人类主观评估高度正相关 —— 它不再是一个「黑盒学术指标」,而是一个 能反映真实人类感知的标尺 。
🧠 学术深意:世界模型的「iPhone 时刻」还没到
「我们离真正可用的具身世界模型,还有一段关键的路要走。」
这不是唱衰,而是 一次清醒的集体转身 。
WorldArena 用系统化实验向全球研究者发出信号: 视觉生成能力已逼近天花板,但功能智能才刚刚破土 。
当模型能生成一杯「看起来很冰的可乐」,却不知道冰块会浮起、杯壁会凝水珠,它就仍然是「视觉模型」,而非「世界模型」。
🌍 开放共建,评测权交给全球社区
WorldArena 不是闭门造车的学术工具,而是一个 完全开放、可复现、持续迭代的社区平台 。
🧩 项目主页:http://world-arena.ai
📄 论文已上线:http://arxiv.org/abs/2602.08971
🧪 评测榜单实时更新:https://huggingface.co/spaces/WorldArena/WorldArena
💻 代码与数据全开源:https://github.com/tsinghua-fib-lab/WorldArena
「我们不是在造一个排行榜,而是在为具身智能建立一套‘驾照考试系统’。」
—— WorldArena 团队
评测细节
多维度视频质量评估:
为了建立系统化的视觉评测标准,WorldArena 构建了六大核心维度,从感知真实到物理真实,全面刻画模型生成能力。