Meta重组AI团队后首个模型来了：不是最强、不再开源、可能够用

速读：Khanna用同一组prompt对五个前沿模型做了零重试实测。 Meta说他们与超过1000名医生合作策划了健康领域的训练数据。

2026年04月09日 08:35

当地时间 4 月 8 日，Meta 终于发布了 Muse Spark，九个月来第一个新模型，也是 Meta 超级智能实验室（MSL）成立以来的第一个产品。消息公布后 Meta 股价盘中涨超 10 %。扎克伯格在 Threads 上说，这是一个 “ 世界级助手 ” 。但一位 Meta 高管也比较坦诚地向媒体表示： Muse Spark 并不代表新的技术前沿，只是在部分任务上与领先模型 “ 有竞争力 ” 。

不差，但也没好到让人直呼牛 X。对 Meta 来说，更重要的信号可能是：它终于又能坐回牌桌了。

经历一系列大动荡之后， Muse Spark 是 Meta AI 大重组后的第一个产物， Alexandr Wang 在 X 上说：我们从零开始重建了整个 AI 技术栈。

Meta 给出的一个关键数字是：Muse Spark 达到 Llama 4 Maverick 同等性能所需的计算量减少了 10 倍以上。这说明过去九个月不只是在旧体系上缝补，而是确实换了一套引擎。在预训练阶段的 scaling law 对比中，Muse Spark 的计算效率也优于 DeepSeek-V3.1 和 Kimi-K2 的基座模型。

在 Benchmark 分数上 Meta 这次虽然没有作弊，但还是耍了个小花招。对比表格中只有 Muse Spark 一列的数字用蓝色高亮，其余模型一律白色，视觉上很容易让人觉得 Muse Spark 全面领先。

图丨基准测试成果（来源：Meta）重新按每行最高分标绿、最低分标红之后再看，Muse Spark 的观感会差很多。在多模态和健康类任务上它确实领先，但在编程、抽象推理和 agentic 任务这些当下最热门的应用场景中，它全面落后于 Gemini 和 GPT-5.4。

具体来看。ARC AGI 2（抽象推理）上 Muse Spark 拿到 42.5 分，Gemini 3.1 Pro 是 76.5，GPT-5.4 是 76.1 ，差了近一倍。 LiveCodeBench Pro（编程竞赛）80 对 GPT-5.4 的 87.5；Terminal-Bench 2.0（终端编程）59 对 75.1； GDPval -AA Elo（办公任务）1444 对 GPT-5.4 的 1672 和 Opus 4.6 的 1606。Meta 自己也在博客中承认 “ 在长时序 agentic 系统和编程工作流方面仍有差距 ” 。

图丨重新标准后的基准测试结果（来源：X）第三方评测机构 Artificial Analysis 给 Muse Spark 的综合智能指数打了 52 分，排在 Gemini 3.1 Pro、GPT-5.4 和 Claude Opus 4.6 之后，位列第四。在 Humanity's Last Exam（无工具）上，Artificial Analysis 追踪到的成绩是 39.9%，低于 Meta 自报的 42.8%，也低于 Gemini 3.1 Pro 的 44.7%。

博主 Ritesh Khanna 用同一组 prompt 对五个前沿模型做了零重试实测。结论是：Muse Spark 在视觉理解和金融分析上排名第一，但代码生成垫底。在生成雪花玻璃球的实测中，它写出了技术上最漂亮的 Three.js 代码，然后渲染出几个黑糊糊的物体。

图丨测试结果（来源： Ritesh Khanna ）

Muse Spark 真正拉开差距的领域集中在两个方向：多模态视觉理解和健康。

CharXiv Reasoning（图表理解）上它以 86.4 分领先所有对手； ScreenSpot Pro（截图定位）84.1 分，仅次于 GPT-5.4 的 85.4； HealthBench Hard（开放式健康问答）得分 42.8，是 Gemini 3.1 Pro（20.6）的两倍多。Meta 说他们与超过 1000 名医生合作策划了健康领域的训练数据。

这两个方向恰好对应 Meta 的产品需求，理解用户在 Instagram 上拍的食物照片、在 Ray-Ban 智能眼镜里识别周围物体、为 Meta AI 助手增加健康问答能力。

Muse Spark 的另一个推理模式 “ Contemplating ” （沉思模式）通过多智能体并行推理来处理更难的任务，在 Humanity's Last Exam（含工具）上拿到 50.2 分，略高于 Gemini Deep Think 的 48.4 和 GPT-5.4 Pro 的 43.9。但物理奥赛（ IPhO 2025 Theory）上 82.6 对 GPT-5.4 Pro 的 93.5，差距仍然明显。

换句话说，Muse Spark 是一个为 Meta 自身产品场景高度定制的模型，不是一个通用前沿模型。从发布方式上也能看出来。

和 Llama 系列不同，Muse Spark 是闭源的。Meta 只向 “ 精选合作伙伴 ” 提供私有 API 预览，普通开发者用不了。

它直接部署在 Meta AI 聊天助手中，未来几周会扩展到 Facebook、Instagram、WhatsApp 和 Ray-Ban 眼镜。Meta 还为它配套了一个 “ 购物模式 ” ，结合用户在社交平台上的兴趣数据做个性化推荐。基本上是把 AI 能力直接接到广告和电商的变现链路上。

沃顿商学院教授 Ethan Mollick 评论说，Muse Spark 最重要的意义在于 Meta 现在有了自己的前沿模型，可以用它从现有用户基础中提取更多价值。但他也说：没有开源权重，就很难预判 Spark 的长期价值，因为此前的 Llama 之所以重要，主要是因为它开源。

Meta 过去三年靠 Llama 系列建立了开源 AI 领域最大的生态：累计下载量 12 亿次，日均下载约 100 万次，企业自部署 Llama 模型的成本比使用闭源 API 低 88%。但到 2025 年底，阿里的 Qwen 3.6 Plus 和 DeepSeek 等中国模型在 Hugging Face 上的下载占比已经达到 41%，美国只占 35%。Llama 4 的失利加速了侵蚀。Muse Spark 闭源发布，某种程度上是承认了现实：与其继续做开源基础设施供应商，不如先把自家产品的 AI 能力补上来。

Alexandr Wang 说未来会有开源版本。扎克伯格也承诺 “ 将发布越来越先进的模型，包括新的开源模型 ” 。但眼下的优先级很清楚：先产品，再生态。

Meta 今年的资本支出预算在 1150 亿到 1350 亿美元之间，几乎是 2025 年的两倍。Muse Spark 是这笔投资的第一个可见产出。它证明了 MSL 团队能在九个月内从零搭出一套有效的技术栈，计算效率在快速提升，多模态和健康方向的差异化也初步成立。Gizmodo 的评价是：扎克伯格的百亿美元投入，让 Meta 从 “ 彻底掉队 ” 升级到了 “ 竞争陪跑 ” 。

但它发布的前一天，Anthropic 公布了据说强大到只能限量开放的 Claude Mythos，智谱 AI 发布了在编程基准上领先的 GLM-5.1 。扎克伯格承诺更大、更强的模型正在路上。问题是，其他对手也并不会停下来原地等 Meta。

参考资料：

https://ai.meta.com/blog/introducing-muse-spark-msl/

https://www.riteshkhanna.com/blog/muse-spark-arena

主题：模型|GPT-5.4|Gemini3.1Pro