视觉强≠能干活！清北普林斯顿等开源WorldArena，世界模型评测被颠覆

速读：当世界模型生成的视频足以「以假乱真」，为何机器人依然「有眼无脑」？

2026年02月13日 13:06

机器之心发布

当世界模型生成的视频足以「以假乱真」，为何机器人依然「有眼无脑」？

2026 年 2 月 13 日，一则来自具身智能前沿的重磅消息引发学界与产业界震动：

由清华大学、北京大学、香港大学、普林斯顿大学、中科院、上海交通大学、中国科学技术大学、新加坡国立大学等顶尖机构联合推出的 WorldArena —— 首个面向具身世界模型的「功能 + 视觉」统一评测体系，正式面向全球开源发布。

这不是又一套「比谁画得真」的榜单，而是一面照向世界模型本质的镜子。

🔥 爆点直击：视觉满分，任务零分？

WorldArena 首次撕开「美丽视频」的伪装

「很多模型的生成视频，人眼看几乎完美，但让它真正指挥机器人抓个杯子 —— 立刻露怯。」

WorldArena 研究团队直言：当前世界模型评测被「视觉内卷」绑架太久，谁的视频更清晰、更流畅、更像好莱坞特效，谁就得分高。但真实世界从来不是电影 —— 机器人需要的是物理规律的理解、动作轨迹的精度、多步决策的稳定，而非一帧帧精美的「幻灯片」。

WorldArena 首次用数据证明：视觉质量与任务执行能力，相关性仅有 0.36 ！

这意味着：一个模型可以生成奥斯卡级视频，却在真实任务中几乎「失能」。

核心创新：从「看起来真实」到「用起来可靠」

WorldArena 不是对现有评测的修修补补，而是一次评测范式的根本重构。

✅ 创新一：六维视觉评测，不止于「好不好看」

视觉不再是「单一审美」，而是拆解为视觉质量、动作质量、内容一致性、物理遵循性、3D 准确性、可控性六大维度。尤其是物理遵循性与 3D 空间理解，被提升到与画质同等重要的地位 —— 因为机器人不信「魔术」，只信物理。

✅ 创新二：三大具身任务，直接拷问「能不能用」

WorldArena 在全球范围内首次将世界模型置于真实的具身任务流水线中进行压力测试：

作为数据生成引擎：它合成的轨迹，能否训练出更好的策略模型？

作为策略评估器：它对环境动态的建模，是否与真实物理引擎高度相关？

作为行动规划器：它能否闭环执行长时序、多步交互任务？

结果令人警醒：多数视觉高分模型，在任务评测中「溃不成军」。

而少数以动作条件建模为核心的模型（如 CtrlWorld），虽视觉非顶尖，却在策略评估相关性上高达 0.986 ，几乎媲美真实环境。

📊EWMScore：一个分数，对齐人类感知与模型能力

WorldArena 还推出了 EWMScore 综合评分体系，将多维客观评测指标统一映射为一个可横向对比的分数。

更关键的是： EWMScore 与人类主观评估高度正相关 —— 它不再是一个「黑盒学术指标」，而是一个能反映真实人类感知的标尺。

🧠 学术深意：世界模型的「iPhone 时刻」还没到

「我们离真正可用的具身世界模型，还有一段关键的路要走。」

这不是唱衰，而是一次清醒的集体转身。

WorldArena 用系统化实验向全球研究者发出信号：视觉生成能力已逼近天花板，但功能智能才刚刚破土。

当模型能生成一杯「看起来很冰的可乐」，却不知道冰块会浮起、杯壁会凝水珠，它就仍然是「视觉模型」，而非「世界模型」。

🌍 开放共建，评测权交给全球社区

WorldArena 不是闭门造车的学术工具，而是一个完全开放、可复现、持续迭代的社区平台。

🧩 项目主页：http://world-arena.ai

📄 论文已上线：http://arxiv.org/abs/2602.08971

🧪 评测榜单实时更新：https://huggingface.co/spaces/WorldArena/WorldArena

💻 代码与数据全开源：https://github.com/tsinghua-fib-lab/WorldArena

「我们不是在造一个排行榜，而是在为具身智能建立一套‘驾照考试系统’。」

—— WorldArena 团队

评测细节

多维度视频质量评估：

为了建立系统化的视觉评测标准，WorldArena 构建了六大核心维度，从感知真实到物理真实，全面刻画模型生成能力。