Claude Opus 4.8上线：提升AI编程可靠性，减少无依据结论

速读：

2026年05月29日 06:5

IT之家 5 月 29 日消息，Anthropic 今天（5 月 29 日）宣布推出旗舰新模型 Claude Opus 4.8，主打更强的智能体编程、多领域推理和知识工作能力。

官方表示，相比较 Opus 4.7 模型，本次 Opus 4.8 更新幅度较小，在保持价格不变的情况下，主要提升编程、智能体、推理和知识工作等用户能感知的方面。

能力层面，官方援引多家早期测试方反馈称，表示 Opus 4.8 “更可靠，判断也更敏锐”，在复杂多步骤任务中判断更稳，能主动提问、识别自身错误，并在计划不合理时提出异议。

官方评估显示，和前代相比，Opus 4.8 放任自己所写代码缺陷、却不加说明的概率降低至四分之一，更愿意主动标出不确定性，减少缺乏依据的结论。

对齐表现方面，Opus 4.8 在支持用户自主性、按用户最佳利益行动等亲社会指标上创下新高。与此同时，欺骗等失配行为的出现率低于 Opus 4.7，并与 Claude Mythos Preview 接近。IT之家附上相关截图如下：

配套功能方面， claude.ai 新增 effort 程度控制，用户可平衡更高质量与更快响应。默认是 high 档，在编码任务中，token 消耗与 Opus 4.7 默认档接近，但效果更好；若选择 extra（在 Claude Code 中为 xhigh）或者 max 更高档位，模型会消耗更多 tokens 以换取更优结果。

基准测试方面，Anthropic 称 Opus 4.8 在 SWE-Bench Pro 上得到 69.2%，并在该测试和其他多项基准中超过 GPT–5.5 与 Gemini 3.1 Pro。但在终端编程基准上，GPT–5.5 仍然领先。

这次更新还带来性能和价格调整。Anthropic 表示，Opus 4.8 的快速模式运行速度提升到 2.5 倍，模型成本则降到此前模型的 1/3。

定价方面，常规模式维持每 100 万输入令牌 5 美元、每 100 万输出令牌 25 美元；快速模式为每 100 万输入令牌 10 美元、每 100 万输出令牌 50 美元。

新浪科技公众号

“掌”握科技鲜闻（微信搜索techsina或扫描左侧二维码关注）

“不好看就退票”服务，能救电影院吗？微信封禁自家“兄弟”红包，打的什么牌？华住，比携程还会捞金？

国际月经日：让“月经”被大方谈论阿里再不入手朴朴就晚了？ AI正在重写医药研发的人才结构滴滴整治顺风车乱象：完单率新规上线乱抢单行不通了不敢买又离不开！中国存储芯片成美国科技公司现实难题中国首个亿级车企诞生！上汽第1亿辆车正式交付支付宝完成AI支付全域布局，AI支付会是未来吗？ 50万买宝马还是蔚来！李斌直言：试驾也不花钱可以来试试蔚来中国手机系统市场最新排名：安卓下滑明显华为鸿蒙继续力压苹果亿万富翁带队！Space X首趟私人火星飞行来了

国际月经日：让“月经”被大方谈论狂揽250万美元！中国造激光灭蚊神器海外爆单：每秒可击落30多只蚊子全新一代问界M9正式上市！余承东：我不是很谦虚它是地球上性能最强SUV 外国网红中国搭便车视频爆火司机：一开始还以为碰到间谍了华为韬定律让美国坐不住了！美媒：我们原本以为差距在5年以上法拉利主席称首款电动车丑到中国车都不会抄！岚图高管回怼：中国车不屑抄你们最新研究：人类很快就会灭绝！亚洲是第一个黄仁勋刚担任清华顾问就被举报：美国女网红要求查他月供1599开宝马X3！宝马试水以租代售：三年可退车免尾款蔚来ES9后排空间有多大！2.26m高的姚明能在二排轻松翘起二郎腿

主题：Opus4.8|方面