登录

Anthropic、OpenAI同一天落子AI 4 S赛道,巨头混战从「拼模型」转向「卡生态」


速读:这说明,模型是能够注意到数据异常,识别出局部诊断信号的,但无法将这一认知转化为下游的方法论调整,做出相应的正确分析决策。 为什么三大巨头偏偏在这个时间点,不约而同地把战火烧到AI4S的底层基础设施? 在这块天花板面前,三家巨头选择了截然不同的AI4S方向,雷峰网(公众号:雷峰网)注意到,它们都指向同一个终点:成为科学家工作不可或缺的底层基础设施。
2026年07月02日 10:1

6月30日,Anthropic和OpenAI同时在AI4S赛道投下了各自的筹码。

Anthropic发布了科研智能体工作台Claude Science,明确表态“不依赖新模型”,通过工作流整合现有能力来承包科学家的日常研究流程。

OpenAI推出了GeneBench-Pro,一套覆盖基因组学、定量生物学等10个领域的评测基准,其测试数据显示,在129个真实科研workflow题目中,即便是最强的GPT-5.6 Sol,端到端通过率也只有28.7%。

两家巨头的方向看似不同,但都是基于同一个判断:AI4S的瓶颈已不是模型不够强,而是模型远未做到真正的端到端。

基于这一共识,Anthropic的选择是把现有模型装进可扩展的工作台,用工具链和流程弥补模型的不可靠;OpenAI的选择则是抢先定义“什么是科研任务的完成”,把话语权锁进标准里。

而在此之前,Google DeepMind已凭借AlphaFold等基础模型在AI+科学领域深耕多年,其Gemini for Science平台正将专有资产与数据库捆绑,以平台整合的方式切入同一市场。

AI4S的战局,已经悄然进入“巨头生态混战”阶段,从模型能力的单点比拼,全面切换到了生态位卡位与工作流整合的战场。

01

AI4S撞上了一块怎样的“天花板”

为什么三大巨头偏偏在这个时间点,不约而同地把战火烧到AI4S的底层基础设施?

开头提到,OpenAI这次在GeneBench-Pro中设计了129道题目,完整模拟了真实科研工作流:从原始数据清洗、质控、建模、诊断,一直到得出结论。评分标准是严苛的二元制:只有全部决策正确才算通过。也就是说,哪怕中间分析步骤全对,只要最终结论错了,这道题就是零分。

数据显示,OpenAI最强的GPT-5.6 Sol在Max推理设置下的通过率也只有28.7%,而在非GPT模型中表现最强的Claude Opus 4.8,其通过率仅达到16.0%。

这说明,模型是能够注意到数据异常,识别出局部诊断信号的,但无法将这一认知转化为下游的方法论调整,做出相应的正确分析决策。注意到了问题,但没有改变行动——OpenAI在论文中将这一缺陷,命名为“notice-act gap”。

“识别”与“行动”之间的这道鸿沟从何而来?珞米科技创始人兼CEO吴昊从技术层面指出,通用大语言模型在生命科学领域存在三重结构性短板:

其一,难以直接理解生物原始数据的特殊结构;

其二,生物学中的许多现象无法简单套用文本的tokenization规则,比如基因表达本身具有随机性;

其三,生物学数据中普遍存在大量未知缺失值。

科研成本也是不可忽视的一个因素。GeneBench-Pro数据显示,单道题的人工专家成本高达数千美元。当模型不可靠时,科研机构不得不继续依赖昂贵的人力。除此之外,生命科学领域也对数据合规有着极其严苛的要求。

这就是混战发生在当下的原因。模型能力触及了“notice-act gap”的天花板,堆算力的老路在科研场景里走不通,工程化整合、生态卡位和数据主权,变成了更务实的突破口。三大巨头不约而同的入局,是“撞”天花板撞出来的必然。

02

同一张牌桌,三种不同打法

在这块天花板面前,三家巨头选择了截然不同的AI4S方向,雷峰网 (公众号:雷峰网) 注意到,它们都指向同一个终点:成为科学家工作不可或缺的底层基础设施。

Anthropic的打法最直白。Claude Science本质上是一个专门的工作台——主AI助手像项目经理一样拆分任务,拆解后分发给子助手执行,再由事实核验器交叉验证。它连接了60多个科学数据库,预建了基因组学、蛋白质结构和化学等工具包。

吴昊分析指出,其技术实质是通过MCP协议调用外部垂直模型(如scGPT处理单细胞数据、DNABERT解析基因序列等)执行具体计算,Claude自身只承担自然语言理解、任务拆解和结果解读的角色。

这种分工使得Anthropic确实无需依赖新模型,也带来了现实优势:一方面避免了通用大模型直接处理生物矩阵时的高昂推理成本;另一方面,垂直模型可以独立迭代,无需等待通用大模型的长周期更新。更重要的是,生命科学领域严格要求数据合规,这种做法能让敏感数据在本地MCP Server上处理,无需上传云端。

如果说Anthropic的做法,相当于“包揽”了一整条跑道,那么OpenAI的逻辑,就是用GeneBench-Pro当裁判,定义“什么是好的AI4S”,再用专用模型GPT-Rosalind当运动员,去冲击高分。

除了这次最新发布的GeneBench-Pro,OpenAI早在四个月前,就推出了GPT-Rosalind,这个模型专门做生物推理微调,以研究预览版形式向美国合格企业客户开放,需通过安全审查。

Google DeepMind则握着独一无二的王牌。它拥有AlphaFold、AlphaGenome等基础科学模型,均为自有专有资产,并与Gemini for Science深度捆绑,整合30多个生命科学数据库。

关键优势在于,其他玩家只能以调用工具的方式接入的模型,在Google这里是自家的底层基础设施。或许其他厂商能做一个更好的工作台,或者定义更严苛的基准,但蛋白质结构预测的核心能力在Google手里。

在市场打法上,三家巨头的选择也各有不同:

Anthropic走宽,靠订阅普及化,Pro、Max、Team和Enterprise订阅用户均可使用Claude Science。值得一提的是,近期Anthropic还推出了$30,000 credits的资助计划,面向50个博士后和研究生项目,申请截止7月15日,试图在青年科学家成为独立PI之前,先把他们锁定在自己的工作台里,让下一代科研人员养成使用Claude Science的学术习惯。

OpenAI走窄,标准公开,允许更多人入局使用,但模型封闭,靠企业门禁建立门槛。

Google走深,靠专有资产构筑壁垒,模型即平台,越用越深,越深越离不开。

三套打法,其实对应了三种不同的思路和风险。

Anthropic赌天花板短期撞不穿,先用工程化把工作流铺开,核心风险在于模型突破万一提前到来,或许会沦为只能做排列组合的工具箱。

OpenAI赌天花板迟早会破,先占住标准等模型能力追上来,但这种“自封裁判身份”的做法,存在不被科学界买账的可能。

Google赌天花板之上还有一层——谁掌握了基础模型的源头,谁就永远有牌可打,壁垒确实够高,但生态相对封闭。

三家各有筹码,各有盲区,没有一家拿到了必胜的手牌,但它们都在同一时间窗口里,把自己手上的筹码一次性推上了桌。

目前来看,胜负难以预测,至少头部客户尚未被任何一家锁定:制药巨头Novo Nordisk同时出现在Anthropic(Claude Science案例客户)和OpenAI(Rosalind早期合作伙伴)的名单里。同一家甲方,正在并行试用多家方案,意味着市场还在开放竞争期,没有哪一家的工具链已经强到让科学家愿意把完整workflow迁移上去。

AI4S的终局,大概率不会被任何一家巨头单独决定。当三大玩家在同一天撞上天花板,它们不约而同地选择了入局,但突围的方向还没有共识。真正的答案仍在科学家手中——他们如何在数据主权、学术独立性和研究效率之间取舍,又将信任的一票投给谁。这个答案,可能比任何技术参数都更能决定终局。

有关AI4S的更多进展与行业观点,欢迎添加雷峰网作者微信 LorraineSummer 交流讨论。

主题:模型|AI4S|GPT-5.6Sol