Anthropic实锤Claude Code「降智」:就是这三个Bug造成的
今天 AI 圈好不热闹,先是 OpenAI 声势浩大发布 GPT5.5,接着是盼了又盼的 DeepSeek v4 终于发布。
而就在这狂欢的夹缝中,Anthropic 也在「搞事情」,不过不是发布新模型,而是发了一份郑重其事的声明: 没错,你们说 Claude Code「降智」是真的,不过这都是有原因的……
「在过去一个月里,一些用户反馈 Claude Code 的质量有所下降。我们对此进行了调查,并发布了一份事后复盘报告,总结了发现的三个问题。」
具体的故事情节要从今年 3 月开始说起,那时候就有网友陆续在 Hacker News、Reddit 等社区吐槽 Claude Code 正变得越来越慢、越来越笨,直言 「Claude Code 甚至已经退化到无法用于复杂工程任务的地步」。
随着网友讨论声量的变大,Anthropic 的 Claude Code 工程负责人 Boris Cherny 直接在 GitHub 上回答了网友的疑问,说是做了一些调整,但 主要是一些 UI 层面的改动,不应该影响思考本身,也不影响思考预算或扩展推理的底层运作方式啊?
可大家并不买账,主要原因就在于,你说了等于什么都没说。模型「降智」是真的不好用是真的,不管什么原因,一直没给个说法也是真的……
之后,这种讨论和吐槽一直还是在继续,直到今日,官方终于下场了。
Anthropic 表示,其实这些问题源自 Claude Code 和 Agent SDK 的运行框架(Harness),而由于 Cowork 也是基于该 SDK 运行,因此同样受到了影响。 「模型本身并没有出现能力退化,Claude API 也未受到影响。」
至于「发现的三个问题」,具体是这样的:
一是「推理努力度调整」未果,反倒让用户觉得模型「变笨」
3 月 4 日,Anthropic 将 Claude Code 的默认推理强度从「high」调整为「medium」,以减少部分用户在高强度模式下遇到的超长延迟(严重时甚至会让界面看起来像「卡死」)。但事实证明这是一个错误的权衡。
于是,等到 4 月 7 日,在用户反馈更希望默认获得更高智能、仅在简单任务中再选择低强度后,Anthropic 撤回了这一改动。但没想到,此次调整影响了 Sonnet 4.6 和 Opus 4.6 版本。
二是缓存机制出现了 Bug
3 月 26 日,Anthropic 上线了一项改动,出于优化会话闲置时的清理逻辑,对超过一小时未使用的会话,在用户重新进入时清理旧的「思考」内容,以降低恢复会话时的延迟。
但意外的是,出现了一个 Bug,导致这个清理操作在后续每一轮对话中都会持续触发,而不是「只执行一次」,从而让 Claude 看起来「持续失忆、健忘且重复」。
Anthropic 察觉到之后,已于 4 月 10 日修复了该问题,但同样,又直接影响了 Sonnet 4.6 和 Opus 4.6。
三是系统提示词变更
4 月 16 日,Anthropic 在系统提示词中加入了一条「降低冗长度」的指令:
「长度限制:在工具调用之间的文本应控制在不超过 25 个词。除非任务需要更多细节,最终回复应控制在不超过 100 个词。」
可在与其他提示词改动叠加后,这一调整反而损害了代码任务的表现,限制了模型在处理复杂任务时的思考深度,导致 coding 质量的下降。
于是,Anthropic 在 4 月 20 日撤回这了一变更,但再一次,该问题又影响了 Sonnet 4.6、Opus 4.6 以及 Opus 4.7。
另外,Anthropic 也在「反省」,因为这些改动分别在不同时间、作用于不同用户流量切片,叠加起来的整体效果表现为「广泛且不一致」的性能下降。
因此,尽管 Anthropic 从 3 月初就开始调查相关反馈,但最初这些问题很难与正常的用户反馈波动区分开来,而且内部使用情况和评测也未能第一时间复现这些问题,所以带给用户这些困扰。
为了表示歉意, 截至 4 月 23 日,Anthropic 将重置所有订阅用户的使用限额。
另外,为了以后能够避免类似问题的再次发生,Anthropic 宣布后续将采取多项改进措施:
确保更大比例的内部员工直接使用与用户一致的 Claude Code 公共版本, 而非用于测试新功能的内部版本,避免内部与外部环境脱节;同时,改进内部使用的代码审查工具,并将升级后的版本提供给用户。
强化「系统提示词」的评估流程, 对其变更施加更严格的控制,每一次修改前,将进行更广泛的「消融实验」,即逐行测试提示词的影响;此外,在 CLAUDE.md 中新增了指导,确保模型特定的改动只作用于对应模型。
对于可能影响模型智能水平的变更,将引入更长的观察期和更细致的灰度发布, 以便更早发现问题。
不得不说,难得看到「高傲」的 Anthropic 如此正视自己的问题,看来大家的「吐槽」还是有效果的。
那么你呢,觉得此次 Anthropic 的态度如何,给出的理由是否有说服力?欢迎大家留言、交流!