Anthropic、OpenAI同一天落子AI 4 S赛道，巨头混战从「拼模型」转向「卡生态」

速读：这说明，模型是能够注意到数据异常，识别出局部诊断信号的，但无法将这一认知转化为下游的方法论调整，做出相应的正确分析决策。为什么三大巨头偏偏在这个时间点，不约而同地把战火烧到AI4S的底层基础设施？在这块天花板面前，三家巨头选择了截然不同的AI4S方向，雷峰网(公众号：雷峰网)注意到，它们都指向同一个终点：成为科学家工作不可或缺的底层基础设施。

2026年07月02日 10:1

6月30日，Anthropic和OpenAI同时在AI4S赛道投下了各自的筹码。

Anthropic发布了科研智能体工作台Claude Science，明确表态“不依赖新模型”，通过工作流整合现有能力来承包科学家的日常研究流程。

OpenAI推出了GeneBench-Pro，一套覆盖基因组学、定量生物学等10个领域的评测基准，其测试数据显示，在129个真实科研workflow题目中，即便是最强的GPT-5.6 Sol，端到端通过率也只有28.7%。

两家巨头的方向看似不同，但都是基于同一个判断：AI4S的瓶颈已不是模型不够强，而是模型远未做到真正的端到端。

基于这一共识，Anthropic的选择是把现有模型装进可扩展的工作台，用工具链和流程弥补模型的不可靠；OpenAI的选择则是抢先定义“什么是科研任务的完成”，把话语权锁进标准里。

而在此之前，Google DeepMind已凭借AlphaFold等基础模型在AI+科学领域深耕多年，其Gemini for Science平台正将专有资产与数据库捆绑，以平台整合的方式切入同一市场。

AI4S的战局，已经悄然进入“巨头生态混战”阶段，从模型能力的单点比拼，全面切换到了生态位卡位与工作流整合的战场。

AI4S撞上了一块怎样的“天花板”

为什么三大巨头偏偏在这个时间点，不约而同地把战火烧到AI4S的底层基础设施？

开头提到，OpenAI这次在GeneBench-Pro中设计了129道题目，完整模拟了真实科研工作流：从原始数据清洗、质控、建模、诊断，一直到得出结论。评分标准是严苛的二元制：只有全部决策正确才算通过。也就是说，哪怕中间分析步骤全对，只要最终结论错了，这道题就是零分。

数据显示，OpenAI最强的GPT-5.6 Sol在Max推理设置下的通过率也只有28.7%，而在非GPT模型中表现最强的Claude Opus 4.8，其通过率仅达到16.0%。

这说明，模型是能够注意到数据异常，识别出局部诊断信号的，但无法将这一认知转化为下游的方法论调整，做出相应的正确分析决策。注意到了问题，但没有改变行动——OpenAI在论文中将这一缺陷，命名为“notice-act gap”。

“识别”与“行动”之间的这道鸿沟从何而来？珞米科技创始人兼CEO吴昊从技术层面指出，通用大语言模型在生命科学领域存在三重结构性短板：

其一，难以直接理解生物原始数据的特殊结构；

其二，生物学中的许多现象无法简单套用文本的tokenization规则，比如基因表达本身具有随机性；

其三，生物学数据中普遍存在大量未知缺失值。

科研成本也是不可忽视的一个因素。GeneBench-Pro数据显示，单道题的人工专家成本高达数千美元。当模型不可靠时，科研机构不得不继续依赖昂贵的人力。除此之外，生命科学领域也对数据合规有着极其严苛的要求。

这就是混战发生在当下的原因。模型能力触及了“notice-act gap”的天花板，堆算力的老路在科研场景里走不通，工程化整合、生态卡位和数据主权，变成了更务实的突破口。三大巨头不约而同的入局，是“撞”天花板撞出来的必然。

同一张牌桌，三种不同打法

在这块天花板面前，三家巨头选择了截然不同的AI4S方向，雷峰网 (公众号：雷峰网) 注意到，它们都指向同一个终点：成为科学家工作不可或缺的底层基础设施。

Anthropic的打法最直白。Claude Science本质上是一个专门的工作台——主AI助手像项目经理一样拆分任务，拆解后分发给子助手执行，再由事实核验器交叉验证。它连接了60多个科学数据库，预建了基因组学、蛋白质结构和化学等工具包。

吴昊分析指出，其技术实质是通过MCP协议调用外部垂直模型（如scGPT处理单细胞数据、DNABERT解析基因序列等）执行具体计算，Claude自身只承担自然语言理解、任务拆解和结果解读的角色。

这种分工使得Anthropic确实无需依赖新模型，也带来了现实优势：一方面避免了通用大模型直接处理生物矩阵时的高昂推理成本；另一方面，垂直模型可以独立迭代，无需等待通用大模型的长周期更新。更重要的是，生命科学领域严格要求数据合规，这种做法能让敏感数据在本地MCP Server上处理，无需上传云端。

如果说Anthropic的做法，相当于“包揽”了一整条跑道，那么OpenAI的逻辑，就是用GeneBench-Pro当裁判，定义“什么是好的AI4S”，再用专用模型GPT-Rosalind当运动员，去冲击高分。

除了这次最新发布的GeneBench-Pro，OpenAI早在四个月前，就推出了GPT-Rosalind，这个模型专门做生物推理微调，以研究预览版形式向美国合格企业客户开放，需通过安全审查。

Google DeepMind则握着独一无二的王牌。它拥有AlphaFold、AlphaGenome等基础科学模型，均为自有专有资产，并与Gemini for Science深度捆绑，整合30多个生命科学数据库。

关键优势在于，其他玩家只能以调用工具的方式接入的模型，在Google这里是自家的底层基础设施。或许其他厂商能做一个更好的工作台，或者定义更严苛的基准，但蛋白质结构预测的核心能力在Google手里。

在市场打法上，三家巨头的选择也各有不同：

Anthropic走宽，靠订阅普及化，Pro、Max、Team和Enterprise订阅用户均可使用Claude Science。值得一提的是，近期Anthropic还推出了$30,000 credits的资助计划，面向50个博士后和研究生项目，申请截止7月15日，试图在青年科学家成为独立PI之前，先把他们锁定在自己的工作台里，让下一代科研人员养成使用Claude Science的学术习惯。

OpenAI走窄，标准公开，允许更多人入局使用，但模型封闭，靠企业门禁建立门槛。

Google走深，靠专有资产构筑壁垒，模型即平台，越用越深，越深越离不开。

三套打法，其实对应了三种不同的思路和风险。

Anthropic赌天花板短期撞不穿，先用工程化把工作流铺开，核心风险在于模型突破万一提前到来，或许会沦为只能做排列组合的工具箱。

OpenAI赌天花板迟早会破，先占住标准等模型能力追上来，但这种“自封裁判身份”的做法，存在不被科学界买账的可能。

Google赌天花板之上还有一层——谁掌握了基础模型的源头，谁就永远有牌可打，壁垒确实够高，但生态相对封闭。

三家各有筹码，各有盲区，没有一家拿到了必胜的手牌，但它们都在同一时间窗口里，把自己手上的筹码一次性推上了桌。

目前来看，胜负难以预测，至少头部客户尚未被任何一家锁定：制药巨头Novo Nordisk同时出现在Anthropic（Claude Science案例客户）和OpenAI（Rosalind早期合作伙伴）的名单里。同一家甲方，正在并行试用多家方案，意味着市场还在开放竞争期，没有哪一家的工具链已经强到让科学家愿意把完整workflow迁移上去。

AI4S的终局，大概率不会被任何一家巨头单独决定。当三大玩家在同一天撞上天花板，它们不约而同地选择了入局，但突围的方向还没有共识。真正的答案仍在科学家手中——他们如何在数据主权、学术独立性和研究效率之间取舍，又将信任的一票投给谁。这个答案，可能比任何技术参数都更能决定终局。

有关AI4S的更多进展与行业观点，欢迎添加雷峰网作者微信 LorraineSummer 交流讨论。

主题：模型|AI4S|GPT-5.6Sol