登录

号称“最强模型”的Mythos正式发布但Anthropic会让它自动熄火


速读:望眼欲穿近两个月、在社交媒体上占尽风头的 Anthropic Mythos 模型,今天终于正式发布了。 它们其实是同一个底层模型,差别只有一处——安全护栏。
2026年06月10日 17:4

望眼欲穿近两个月、在社交媒体上占尽风头的 Anthropic Mythos 模型,今天终于正式发布了。

两个月前,Anthropic 说自己最强的那一类模型太危险、不能公开,只把它发给了一百多家机构。

今天,这类能力对所有人开放了: 公开发布的版本叫 Claude Fable 5;那个真正「不设限」的 Mythos 5,依然只留给少数合作伙伴。换句话说,你能用上的最强 Claude,是一台被加了边界的 Mythos。

而这道护栏的设计,比「公开发布」四个字本身更值得说:它保证安全的方式,不是拒绝你。

Anthropic 这次一口气放出两个模型:Claude Fable 5 和 Claude Mythos 5。它们其实是同一个底层模型,差别只有一处——安全护栏。

Fable 5 套了一整套安全分类器,面向所有用户;Mythos 5 拆掉了其中一部分限制,只给 Project Glasswing 里的网络安全合作伙伴。

说白了, Fable 5 就是一台「带护栏的 Mythos」 。

和 Anthropic 一贯的风格一样,模型名字本身也藏了点心思。

据 Anthropic 解释,Fable 来自拉丁语 fabula,意思是「被讲述的故事」,和希腊语里的 mythos 同源。两个名字指向同一件东西,区别只在于,其中一个被加上了边界。

把时间线往回拉一下。今年四月,Anthropic 启动 Project Glasswing,第一次放出 Mythos 级模型(Claude Mythos Preview)时,只给了一小撮网络安全和关键基础设施机构——到上周,这份名单扩展到十几个国家、一百多家机构。当时官方的说法是,这类模型一旦落到错误的人手里,能造成严重破坏,所以不能公开。

两个月,从「太危险不能发」到「所有人都能用」。这中间发生的事,才是这次发布真正的主角。

大多数 AI 的安全机制,是「拒绝」——你问一个它不该答的问题,它告诉你「抱歉,我不能帮你」。

Fable 5 换了个思路。 安全不是靠它学会拒绝,而是在危险时把它换掉。

具体来说,Fable 5 背后挂着一组独立的分类器。

当这组分类器判断你的请求落在三个高风险领域——网络攻击、生物化学武器、以及模型蒸馏(指把一个模型的能力「偷」出来,去训练自己的模型)——它不会让 Fable 5 来回答,而是悄悄把这道题转交给 Opus 4.8,同时告诉你:刚才发生了一次降级。

这个设计有意思的地方在于,它把「安全」和「能力」拆成了两件事。 你买的是 Mythos 级别的能力,但在最危险的那三个领域,你其实是在跟 Opus 说话。 Anthropic 自己的说法是,降级到 Opus 4.8 的体验,总比被 Fable 直接拒绝要好——毕竟 Opus 4.8 本身也是个相当强的模型。

Anthropic 给出的数据是,超过 95% 的对话根本不会触发降级。换句话说,对绝大多数人来说,你用到的 Fable 5,和合作伙伴手里那个「完全体」Mythos 5,体验几乎没有区别。

那这套护栏结实吗?Anthropic 说,他们做了超过一千小时的外部红队测试,没有人找到能绕过它的「通用越狱」方法(指一种能让模型彻底无视所有安全限制的万能手段)。

当然他们也留了余地:完全杜绝越狱大概是不可能的,目标只是让任何漏洞都「慢到、贵到」来不及被大规模利用。

但这套机制有代价,而且 Anthropic 自己先说了出来:分类器现在调得偏严,会误伤正常请求。一个研究病毒的生物学家,一个做渗透测试的安全工程师,都可能在合理的工作里被莫名其妙地「降级」。官方承认这会让一些用户感到烦躁,承诺后续慢慢收窄、降低误报。

我把这件事想了一会儿,觉得它其实是一个挺聪明、也挺无奈的折中。聪明在于,它没有在「发」和「不发」之间二选一,而是在能力上切了一刀;无奈在于,这一刀切得并不精准——为了赶在出事之前先上线,Anthropic 宁可错杀,不肯漏过。

强到危险,才配得上这套护栏 

聊了半天安全,你可能会问:它到底强到什么程度,值得这么如临大敌?

基准测试我本来想跳过——跑分这东西看多了会麻木,何况 Anthropic 列了一长串,几乎项项第一。

最唬人的一个来自 Stripe。据 Anthropic 披露,Stripe 在一个五千万行的 Ruby 代码库上,用 Fable 5 做了一次全库迁移,一天完成——而这件事,原本要一整个团队手工干两个多月。更关键的是效率:在 Cognition 的 FrontierCode 编程测试里,Fable 5 在「中等算力消耗」下就拿到了最高分,Token 效率比以前的 Claude 明显更好。

这也解释了为什么 Anthropic 反复强调 Token 效率——一个能连续自主工作很久、动辄消耗上百万 Token 的模型,如果还很「废话」,成本会高到没人用得起。

视觉这块的进步更直观。以前的 Claude 玩宝可梦火红版,得靠一整套辅助工具链才能磕磕绊绊地推进;Fable 5 只用最基础的视觉接口,就自己通关了。它还能仅凭几张截图,把一个 Web 应用的源代码还原出来。

Anthropic 内部的蛋白质设计专家,用 Mythos 5 把药物设计流程中的部分环节,加速了大约十倍。第二个更夸张:在一项基因组学研究里,Mythos 5 在几乎完全自主的状态下连续工作了一周多,自己训练出了一个机器学习模型——这个模型的表现,超过了发表在《Science》上的同类模型,而它的体量,只有后者的百分之一。

当一个模型能独立做完一周的科研,还做得比人类发在顶刊上的成果更好,「它会不会被用来设计病毒」就不再是杞人忧天。 这正是 Anthropic 给生物化学领域单独上锁的原因——同一种能力,在研究者手里是解药,换一双手可能就是别的东西。

主题:模型|安全|Fable5