登录

Meta重组AI团队后首个模型来了:不是最强、不再开源、可能够用


速读:Khanna用同一组prompt对五个前沿模型做了零重试实测。 Meta说他们与超过1000名医生合作策划了健康领域的训练数据。
2026年04月09日 08:35

当地时间 4 月 8 日,Meta 终于发布了 Muse Spark,九个月来第一个新模型,也是 Meta 超级智能实验室(MSL)成立以来的第一个产品。消息公布后 Meta 股价盘中涨超  10 %。扎克伯格在 Threads 上说,这是一个 “ 世界级助手 ” 。但一位 Meta 高管也比较坦诚地向媒体表示: Muse Spark 并不代表新的技术前沿,只是在部分任务上与领先模型 “ 有竞争力 ” 。

不差,但也没好到让人直呼牛 X。对 Meta 来说,更重要的信号可能是:它终于又能坐回牌桌了。

经历一系列大动荡之后, Muse Spark 是  Meta AI 大重组 后 的第一个产物, Alexandr Wang 在 X 上说:我们从零开始重建了整个 AI 技术栈。

Meta 给出的一个关键数字 是 :Muse Spark 达到 Llama 4 Maverick 同等性能所需的计算量减少了 10 倍以上。这说明过去九个月不只是在旧体系上缝补,而是确实换了一套引擎。在预训练阶段的 scaling law 对比中,Muse Spark 的计算效率也优于 DeepSeek-V3.1 和 Kimi-K2 的基座模型。

在 Benchmark 分数上  Meta  这次虽然没有 作弊,但还是耍了个小花招。对比表格中只有 Muse Spark 一列的数字用蓝色高亮,其余模型一律白色,视觉上很容易让人觉得 Muse Spark 全面领先。

图丨基准测试成果(来源:Meta) 重新按每行最高分标绿、最低分标红之 后再看 ,Muse Spark 的观感会差很多。在多模态和健康类任务上它确实领先,但在编程、抽象推理和 agentic 任务这些当下最热门的应用场景中,它全面落后于 Gemini 和 GPT-5.4。

具体来看。ARC AGI 2(抽象推理)上 Muse Spark 拿到 42.5 分,Gemini 3.1 Pro 是 76.5,GPT-5.4 是 76.1 , 差了近一倍。 LiveCodeBench  Pro(编程竞赛)80 对 GPT-5.4 的 87.5;Terminal-Bench 2.0(终端编程)59 对 75.1; GDPval -AA Elo(办公任务)1444 对 GPT-5.4 的 1672 和 Opus 4.6 的 1606。Meta 自己也在博客中承认 “ 在长时序 agentic 系统和编程工作流方面仍有差距 ” 。

图丨重新标准后的基准测试结果(来源:X) 第三方评测机构 Artificial Analysis 给 Muse Spark 的综合智能指数打了 52 分,排在 Gemini 3.1 Pro、GPT-5.4 和 Claude Opus 4.6 之后,位列第四。在 Humanity's Last Exam(无工具)上,Artificial Analysis 追踪到的成绩是 39.9%,低于 Meta 自报的 42.8%,也低于 Gemini 3.1 Pro 的 44.7%。

博主  Ritesh  Khanna 用同一组 prompt 对五个前沿模型做了零重试实测。结论是:Muse Spark 在视觉理解和金融分析上排名第一,但代码生成垫底 。 在生成 雪花玻璃球的实测中, 它写出了技术上最漂亮的 Three.js 代码,然后渲染出 几个黑糊糊的物体 。

图丨测试结果(来源: Ritesh  Khanna )

Muse Spark 真正拉开差距的领域集中在两个方向: 多模态视觉理解和健康。

CharXiv  Reasoning(图表理解)上它以 86.4 分领先所有对手; ScreenSpot  Pro(截图定位)84.1 分,仅次于 GPT-5.4 的 85.4; HealthBench  Hard(开放式健康问答)得分 42.8,是 Gemini 3.1 Pro(20.6)的两倍多。Meta 说他们与超过 1000 名医生合作策划了健康领域的训练数据。

这两个方向恰好对应 Meta 的产品需求 , 理解用户在 Instagram 上拍的食物照片、在 Ray-Ban 智能眼镜里识别周围物体、为 Meta AI 助手增加健康问答能力。

Muse Spark 的另一个推理模式 “ Contemplating ” (沉思模式)通过多智能体并行推理来处理更难的任务,在 Humanity's Last Exam(含工具)上拿到 50.2 分,略高于 Gemini Deep Think 的 48.4 和 GPT-5.4 Pro 的 43.9。但物理奥赛( IPhO  2025 Theory)上 82.6 对 GPT-5.4 Pro 的 93.5,差距仍然明显。

换句话说,Muse Spark 是一个为 Meta 自身产品场景高度定制的模型,不是一个通用前沿模型。从发布方式上也能看出来。

和 Llama 系列不同,Muse Spark 是闭源的。Meta 只向 “ 精选合作伙伴 ” 提供私有 API 预览,普通开发者用不了。

它直接部署在 Meta AI 聊天助手中,未来几周会扩展到 Facebook、Instagram、WhatsApp 和 Ray-Ban 眼镜。Meta 还为它配套了一个 “ 购物模式 ” ,结合用户在社交平台上的兴趣数据做个性化推荐 。 基本上是把 AI 能力直接接到广告和电商的变现链路上。

沃顿商学院 教授 Ethan  Mollick  评论说,Muse Spark 最重要的意义在于 Meta 现在有了自己的前沿模型,可以用它从现有用户基础中提取更多价值。但他也说:没有开源权重,就很难预判 Spark 的长期价值 ,因为此前的  Llama 之所以重要,主要是因为它开源。

Meta 过去三年靠 Llama 系列建立了开源 AI 领域最大的生态:累计下载量 12 亿次,日均下载约 100 万次,企业自部署 Llama 模型的成本比使用闭源 API 低 88%。但到 2025 年底,阿里的  Qwen  3.6 Plus 和  DeepSeek  等中国模型在 Hugging Face 上的下载占比已经达到 41%,美国只占 35%。Llama 4 的失利加速了侵蚀。Muse Spark 闭源发布,某种程度上是承认了现实:与其继续做开源基础设施供应商,不如先把自家产品的 AI 能力补上来。

Alexandr  Wang 说未来会有开源版本。扎克伯格也承诺 “ 将发布越来越先进的模型,包括新的开源模型 ” 。但眼下的优先级很清楚:先产品,再生态。

Meta 今年的资本支出预算在 1150 亿到 1350 亿美元之间,几乎是 2025 年的两倍。Muse Spark 是这笔投资的第一个可见产出。它证明了 MSL 团队能在九个月内从零搭出一套有效的技术栈,计算效率在快速提升,多模态和健康方向的差异化也初步成立。Gizmodo 的评价是:扎克伯格的百亿美元投入,让 Meta 从 “ 彻底掉队 ” 升级到了 “ 竞争陪跑 ” 。

但它发布的 前 一 天,Anthropic 公布了据说强大到只能限量开放的 Claude Mythos,智谱 AI 发布了在编程基准上领先的 GLM-5.1 。 扎克伯格承诺更大、更强的模型正在路上。问题是, 其他对手也并不会停下来原地等 Meta。

参考资料:

https://ai.meta.com/blog/introducing-muse-spark-msl/

https://www.riteshkhanna.com/blog/muse-spark-arena

主题:模型|GPT-5.4|Gemini3.1Pro