DeepMind打造多游戏通用智能体SIMA 2,无需人类数据,让AI在虚拟世界中自我训练
《山羊模拟器 3》(Goat Simulator 3)这款以混乱、荒诞著称的游戏,其物理引擎的不可预测性曾让无数玩家啼笑皆非。如今,谷歌成功让这款游戏成为了他们最新 AI Agent 泛化能力的试验场。
11 月 13 日,DeepMind 正式发布 SIMA 2(Scalable Instructable Multiworld Agent,可扩展的可指令多世界智能体),这个集成了 Gemini 大语言模型的新一代智能体,不仅能在《无人深空》的浩瀚星际中导航,也能在《山羊模拟器 3》的混乱世界里完成任务。这种跨越虚拟环境的能力,被 DeepMind 称为“迈向通用人工智能的重要一步”。
2024 年 3 月,DeepMind 首次发布了 SIMA 的初代版本。当时的 SIMA 1 已经算是一个突破——它能够跨越《无人深空》《山羊模拟器 3》等八款商业游戏执行基本指令,仅通过观察屏幕像素和使用虚拟键鼠操作,无需访问游戏的底层代码。但其 31% 的复杂任务完成率暴露了根本性的瓶颈:这个系统更像一个执行器而非思考者,面对“找到营火”这样简单的目标时,它只能机械地尝试各种操作,缺乏真正的理解和规划能力。
SIMA 2 的核心改变是整合了 Gemini 2.5 flash-lite 模型作为推理引擎。Gemini 的语言理解和推理能力与 SIMA 的 embodied skills(具身技能)深度融合,使得 Agent 能够理解高层目标、制定多步计划,并在执行过程中与用户对话解释自己的思路。 在新的基准测试中,SIMA 2 在训练过的游戏环境中达到了 65% 的成功率,几乎是前代的两倍,与人类玩家 75% 的基准线已经相当接近。
这种性能提升的背后是架构层面的重新设计。SIMA 2 的训练数据不再完全依赖人类游戏演示录像,而是混合了人类标注和 Gemini 生成的任务描述。当智能体观察到游戏画面中的某个场景时,Gemini 模型会同时生成对该场景的语义理解和可能的行动方案。这种训练方式的一个直接结果是,SIMA 2 现在能够用自然语言描述它的意图和推理过程。在《无人深空》的演示中,当被要求“前往看起来像成熟番茄的房子”时,智能体会明确说明:“成熟的番茄是红色的,所以我应该去红色的房子”——这种显式推理正是 Gemini 带来的质变。
视频丨超越简单的指令执行:SIMA 2 可以回答用户的问题,并对自身行为和环境进行推理(来源:Google)
多模态交互能力也有提升。SIMA 2 可以理解文字、语音、手绘草图,甚至 emoji。当用户发送斧头和树木的 emoji 时,智能体能理解这意味着“砍树”。这种能力来自 Gemini 的多模态架构,但关键是 DeepMind 找到了将抽象符号与游戏动作连接的方法,系统理解斧头是工具、树木是可交互对象、两者组合意味着特定行动序列。
SIMA 2 最重要的创新之一是其自我改进机制。 与 SIMA 1 完全依赖人类游戏数据不同,SIMA 2 在获得初始的人类演示基线后,能够转向自主学习。 当团队将智能体放入新环境时,系统会调用另一个 Gemini 模型来生成新任务,并使用单独的奖励模型对智能体的尝试进行评分。
通过这些自生成的经验作为训练数据,智能体能从自己的错误中学习,逐步提升性能,本质上是在 AI 反馈而非人类反馈的引导下,像人类一样通过试错来教会自己新行为。这种自我改进循环在与 Genie 3(DeepMind 的世界生成模型)结合时能发挥更大的作用:在 Genie 3 实时生成的全新 3D 环境中,SIMA 2 展现出了前所未有的适应能力,能够在从未见过的世界中理解用户指令并采取有意义的行动。
在从未训练过的 MineDojo(Minecraft 的研究实现版本)和 ASKA 游戏中,SIMA 2 的成功率相较第一代分别提升了 13% 和 12%。 虽然仍然只有不到 15% 的水平,但考虑到智能体此前从未见过这些游戏的任何画面或机制,这个表现已经相对可观。