Anthropic实锤Claude Code「降智」：就是这三个Bug造成的

速读：模型「降智」是真的不好用是真的，不管什么原因，一直没给个说法也是真的……。

2026年04月24日 17:06

今天 AI 圈好不热闹，先是 OpenAI 声势浩大发布 GPT5.5，接着是盼了又盼的 DeepSeek v4 终于发布。

而就在这狂欢的夹缝中，Anthropic 也在「搞事情」，不过不是发布新模型，而是发了一份郑重其事的声明：没错，你们说 Claude Code「降智」是真的，不过这都是有原因的……

「在过去一个月里，一些用户反馈 Claude Code 的质量有所下降。我们对此进行了调查，并发布了一份事后复盘报告，总结了发现的三个问题。」

具体的故事情节要从今年 3 月开始说起，那时候就有网友陆续在 Hacker News、Reddit 等社区吐槽 Claude Code 正变得越来越慢、越来越笨，直言「Claude Code 甚至已经退化到无法用于复杂工程任务的地步」。

随着网友讨论声量的变大，Anthropic 的 Claude Code 工程负责人 Boris Cherny 直接在 GitHub 上回答了网友的疑问，说是做了一些调整，但主要是一些 UI 层面的改动，不应该影响思考本身，也不影响思考预算或扩展推理的底层运作方式啊？

可大家并不买账，主要原因就在于，你说了等于什么都没说。模型「降智」是真的不好用是真的，不管什么原因，一直没给个说法也是真的……

之后，这种讨论和吐槽一直还是在继续，直到今日，官方终于下场了。

Anthropic 表示，其实这些问题源自 Claude Code 和 Agent SDK 的运行框架（Harness），而由于 Cowork 也是基于该 SDK 运行，因此同样受到了影响。「模型本身并没有出现能力退化，Claude API 也未受到影响。」

至于「发现的三个问题」，具体是这样的：

一是「推理努力度调整」未果，反倒让用户觉得模型「变笨」

3 月 4 日，Anthropic 将 Claude Code 的默认推理强度从「high」调整为「medium」，以减少部分用户在高强度模式下遇到的超长延迟（严重时甚至会让界面看起来像「卡死」）。但事实证明这是一个错误的权衡。

于是，等到 4 月 7 日，在用户反馈更希望默认获得更高智能、仅在简单任务中再选择低强度后，Anthropic 撤回了这一改动。但没想到，此次调整影响了 Sonnet 4.6 和 Opus 4.6 版本。

二是缓存机制出现了 Bug

3 月 26 日，Anthropic 上线了一项改动，出于优化会话闲置时的清理逻辑，对超过一小时未使用的会话，在用户重新进入时清理旧的「思考」内容，以降低恢复会话时的延迟。

但意外的是，出现了一个 Bug，导致这个清理操作在后续每一轮对话中都会持续触发，而不是「只执行一次」，从而让 Claude 看起来「持续失忆、健忘且重复」。

Anthropic 察觉到之后，已于 4 月 10 日修复了该问题，但同样，又直接影响了 Sonnet 4.6 和 Opus 4.6。

三是系统提示词变更

4 月 16 日，Anthropic 在系统提示词中加入了一条「降低冗长度」的指令：

「长度限制：在工具调用之间的文本应控制在不超过 25 个词。除非任务需要更多细节，最终回复应控制在不超过 100 个词。」

可在与其他提示词改动叠加后，这一调整反而损害了代码任务的表现，限制了模型在处理复杂任务时的思考深度，导致 coding 质量的下降。

于是，Anthropic 在 4 月 20 日撤回这了一变更，但再一次，该问题又影响了 Sonnet 4.6、Opus 4.6 以及 Opus 4.7。

另外，Anthropic 也在「反省」，因为这些改动分别在不同时间、作用于不同用户流量切片，叠加起来的整体效果表现为「广泛且不一致」的性能下降。

因此，尽管 Anthropic 从 3 月初就开始调查相关反馈，但最初这些问题很难与正常的用户反馈波动区分开来，而且内部使用情况和评测也未能第一时间复现这些问题，所以带给用户这些困扰。

为了表示歉意，截至 4 月 23 日，Anthropic 将重置所有订阅用户的使用限额。

另外，为了以后能够避免类似问题的再次发生，Anthropic 宣布后续将采取多项改进措施：

确保更大比例的内部员工直接使用与用户一致的 Claude Code 公共版本，而非用于测试新功能的内部版本，避免内部与外部环境脱节；同时，改进内部使用的代码审查工具，并将升级后的版本提供给用户。

强化「系统提示词」的评估流程，对其变更施加更严格的控制，每一次修改前，将进行更广泛的「消融实验」，即逐行测试提示词的影响；此外，在 CLAUDE.md 中新增了指导，确保模型特定的改动只作用于对应模型。

对于可能影响模型智能水平的变更，将引入更长的观察期和更细致的灰度发布，以便更早发现问题。

不得不说，难得看到「高傲」的 Anthropic 如此正视自己的问题，看来大家的「吐槽」还是有效果的。

那么你呢，觉得此次 Anthropic 的态度如何，给出的理由是否有说服力？欢迎大家留言、交流！