登录

刚刚,GPT-5.6正式发布,史上最强但被自己坑惨了


速读:OpenAI称,Sol是其迄今最强的网络安全模型,能够推进长周期安全任务的性能和效率边界,包括漏洞研究和exploitation相关任务。 网络安全则是GPT-5.6Sol最敏感的能力方向。
2026年06月27日 15:3

就在刚刚,GPT-5.6 系列正式发布,不过,它并没有直接全面开放,而是以「有限预览」的方式先行试水。

作为 OpenAI 最强的一代,GPT-5.6 一口气端出三款型号,名字起得颇有诗意:

Sol(太阳)是旗舰模型,也是 OpenAI 口中目前最强的模型;

Terra(地球/大地)是面向日常工作的平衡型模型,性能可以与 GPT-5.5 竞争,同时价格便宜一半;

Luna(月亮)主打速度和低成本,是 GPT-5.6 系列中最便宜的模型。

从这命名方式来看,奥特曼私底下没少学习 Anthropic 营销的精髓。而借着 GPT-5.6 的发布,OpenAI 也顺手把命名体系重新梳理了一遍:

数字表示代际,Sol、Terra、Luna 对应不同能力层级,便于区分智能水平、速度与成本。产品定位上,Sol 面向高难复杂任务,Terra 覆盖日常工作流,Luna 主打低成本调用。

换句话说,GPT-5.6 不只是一次能力升级,也是 OpenAI 对模型产品线的一次重新分层。

▲🔗 https://openai.com/index/previewing-gpt-5-6-sol/ ▲🔗 https://openai.com/index/previewing-gpt-5-6-sol/

GPT-5.6 深夜突袭,能力全系霸榜

作为 OpenAI 迄今最强模型。GPT-5.6 Sol 的能力展示,主要集中在编程、生物信息学和网络安全三个方向。

这三类场景有一个共同特征:

复杂、长链条、强依赖上下文。模型需要在任务中持续规划、推理、调用工具、修正错误,并不断推进流程。OpenAI 把这种能力称为 agentic capabilities——让模型更像一个能独立执行任务的 agent。

在编程场景中,GPT-5.6 Sol 已经不再停留在代码补全,而是深入到命令行环境中的复杂操作。

OpenAI 称,Sol 在 Terminal-Bench 2.1 上刷新了表现。Terminal-Bench 2.1 测试的是命令行工作流,任务要求模型具备规划、迭代和工具协调能力。

基准测试成绩显示,GPT-5.6 Sol Ultra 在 Terminal-Bench 2.1 上得分 91.9%,GPT-5.6 Sol 得分 88.8%。作为对照,GPT-5.5 为 88.0%,GPT-5.6 Terra 为 82.5%,GPT-5.6 Luna 为 84.3%。

横向对比其它模型,Claude Mythos 5 为 84.3%,Claude Fable 5 为 83.4%,Claude Opus 4.8 为 78.9%,Gemini 3.1 Pro Preview 为 70.7%。

Sol Ultra 的成绩,也对应 GPT-5.6 的核心功能。

一方面,max 级别的推理强度让模型可以投入更多时间进行深度推理;另一方面,新增的 Ultra 模式会调度多个子 Agent,把复杂任务拆分处理,再统一汇总结果。

在真实开发场景里,模型经常需要理解项目结构、读取文件、修改代码、运行命令、分析报错、继续修改。一个复杂任务通常无法靠一次回答完成。Ultra 模式的方向,是让多个子 Agent 分别处理不同环节,再把结果汇总起来,从而提高复杂任务的完成效率。

生物方向上,GPT-5.6 Sol 的提升体现在 GeneBench v1 上。这个评测主要面向长周期基因组学和定量生物分析任务。OpenAI 称,Sol 相比 GPT-5.5 取得了更强结果,而且使用的输出 tokens 更少。

这一点对科研场景尤为关键。生物信息学、基因组学和定量生物分析,经常需要模型持续分析数据、解释结果、选择方法、比较假设,并在多轮操作中保持上下文一致。模型能不能完成这类任务很重要,能不能用更低 tokens 成本完成长链条分析同样重要。

如果 Sol 能在更少输出 tokens 下取得更强结果,意味着它在专业科研工作流中有更好的成本效率。对实验室、企业研发团队和生物医药场景来说,tokens 消耗直接影响调用成本,也影响模型能否进入大规模工作流。

网络安全则是 GPT-5.6 Sol 最敏感的能力方向。

OpenAI 称,Sol 是其迄今最强的网络安全模型,能够推进长周期安全任务的性能和效率边界,包括漏洞研究和 exploitation 相关任务。

在 ExploitBench 上,GPT-5.6 Sol 的表现接近 Mythos Preview,但只使用了大约三分之一的输出 tokens。

同时,OpenAI 还提到 ExploitGym——一个由 UC Berkeley 联合多家前沿实验室打造的评测体系,用于衡量模型在安全任务中的能力。随着推理能力提升,Sol、Terra、Luna 在这一领域都有明显进步。

不过,OpenAI 对这部分表述明显踩了刹车。

官方强调,Sol 更擅长发现和修复漏洞,还不能稳定完成端到端攻击。在涉及 Chromium 和 Firefox 的评估中,Sol 可以识别 bug 和程序缺陷,也就是漏洞利用的基础组件,但在测试条件下没有自主生成可运行的完整攻击链。

基于这些结果,OpenAI 判断 GPT-5.6 Sol 尚未跨过 Preparedness Framework 中的网络安全关键风险阈值。

▲System Card 🔗:https://deploymentsafety.openai.com/gpt-5-6-preview/introduction

这种踩刹车的判断显然是为了避免重走「Mythos」的老路。

一方面,OpenAI 要证明 Sol 在网络安全任务上确实强了很多;另一方面,它也要说明 Sol 还没有达到必须极端限制的风险级别。更讽刺的是,这种压力很大程度上来自 OpenAI 自己参与塑造的 AI 行业炒作叙事。

与此同时,OpenAI 也承认,基准测试无法覆盖所有现实用法。没有任何评测可以代表所有产品配置、多步骤攻击和真实工作流。模型可能被接入其他工具,也可能被放进更复杂的攻击链条里。正是这种不确定性,让 GPT-5.6 的发布方式变得格外谨慎。

性能最强,但戏份却给了 AI 安全

GPT-5.6 的发布说明中,安全罕见地占据了较大篇幅。

OpenAI 为 Sol、Terra、Luna 配置了分级防护体系,能力越强,防护越严,目标是在压制攻击性用途的同时保留代码审查、漏洞研究等合法场景。

模型层面,系统被训练为拒绝违规网络安全请求,即便用户尝试伪装或绕过。生成阶段引入实时分类器,对高风险内容进行检测与拦截,必要时交由更强模型复核。账号层面则结合跨对话行为与风险信号,识别持续性滥用。

这套机制被称为分层安全栈,涵盖模型拒答、实时检测、账号审查、差异化访问与持续测试。多层协同用于应对复杂滥用,同时尽量减少对正常工作的干扰。

面向企业客户,OpenAI 还提出了隐私保护检测、自主安全控制以及风险分级访问等方案,试图在安全与数据保护之间找到平衡点。

主题:GPT-5.6|模型|能力|GPT-5.6Sol