登录

Claude Opus 4.8上线:提升AI编程可靠性,减少无依据结论



速读:
2026年05月29日 06:5

IT之家 5 月 29 日消息,Anthropic 今天(5 月 29 日)宣布推出旗舰新模型 Claude Opus 4.8, 主打更强的智能体编程、多领域推理和知识工作能力。

官方表示,相比较 Opus 4.7 模型,本次 Opus 4.8 更新幅度较小,在保持价格不变的情况下,主要提升编程、智能体、推理和知识工作等用户能感知的方面。

能力层面,官方援引多家早期测试方反馈称,表示 Opus 4.8 “更可靠,判断也更敏锐”,在复杂多步骤任务中判断更稳,能主动提问、识别自身错误,并在计划不合理时提出异议。

官方评估显示,和前代相比,Opus 4.8 放任自己所写代码缺陷、却不加说明的概率降低至四分之一,更愿意主动标出不确定性,减少缺乏依据的结论。

对齐表现方面,Opus 4.8 在支持用户自主性、按用户最佳利益行动等亲社会指标上创下新高。与此同时,欺骗等失配行为的出现率低于 Opus 4.7,并与 Claude Mythos Preview 接近。IT之家附上相关截图如下:

配套功能方面, claude.ai 新增 effort 程度控制,用户可平衡更高质量与更快响应。默认是 high 档,在编码任务中,token 消耗与 Opus 4.7 默认档接近,但效果更好;若选择 extra(在 Claude Code 中为 xhigh)或者 max 更高档位,模型会消耗更多 tokens 以换取更优结果。

基准测试方面,Anthropic 称 Opus 4.8 在 SWE-Bench Pro 上得到 69.2%,并在该测试和其他多项基准中超过 GPT–5.5 与 Gemini 3.1 Pro。但在终端编程基准上,GPT–5.5 仍然领先。

这次更新还带来性能和价格调整。Anthropic 表示,Opus 4.8 的快速模式运行速度提升到 2.5 倍,模型成本则降到此前模型的 1/3。

定价方面,常规模式维持每 100 万输入令牌 5 美元、每 100 万输出令牌 25 美元;快速模式为每 100 万输入令牌 10 美元、每 100 万输出令牌 50 美元。

新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

“不好看就退票”服务,能救电影院吗? 微信封禁自家“兄弟”红包,打的什么牌? 华住,比携程还会捞金?

国际月经日:让“月经”被大方谈论 阿里再不入手朴朴 就晚了? AI正在重写医药研发的人才结构 滴滴整治顺风车乱象:完单率新规上线 乱抢单行不通了 不敢买又离不开!中国存储芯片成美国科技公司现实难题 中国首个亿级车企诞生!上汽第1亿辆车正式交付 支付宝完成AI支付全域布局,AI支付会是未来吗? 50万买宝马还是蔚来!李斌直言:试驾也不花钱 可以来试试蔚来 中国手机系统市场最新排名:安卓下滑明显 华为鸿蒙继续力压苹果 亿万富翁带队!Space X首趟私人火星飞行来了

国际月经日:让“月经”被大方谈论 狂揽250万美元!中国造激光灭蚊神器海外爆单:每秒可击落30多只蚊子 全新一代问界M9正式上市!余承东:我不是很谦虚 它是地球上性能最强SUV 外国网红中国搭便车视频爆火 司机:一开始还以为碰到间谍了 华为韬定律让美国坐不住了!美媒:我们原本以为差距在5年以上 法拉利主席称首款电动车丑到中国车都不会抄!岚图高管回怼:中国车不屑抄你们 最新研究:人类很快就会灭绝!亚洲是第一个 黄仁勋刚担任清华顾问就被举报:美国女网红要求查他 月供1599开宝马X3!宝马试水以租代售:三年可退车免尾款 蔚来ES9后排空间有多大!2.26m高的姚明能在二排轻松翘起二郎腿

主题:Opus4.8|方面