AI竞争进入下半场:从“卷参数”到“卷单价”
如果你还沉浸在去年“谁家模型跑分最高”的叙事中,那么今年的 谷歌 I/O大会可能会让你有些不适应。整场大会最核心的武器,并非某个仅仅存在于演示视频中的AGI(通用人工智能),而是一个定位为“中杯”的模型 —— Gemini 3.5 Flash。
竞赛的下半场,不再是“谁的模型跑分更高”,而是“比谁更便宜、更可执行、更能嵌入现实工作流”。 Gemini 3.5 Flash以不到同类前沿模型一半的成本,提供了前沿级别的能力,打开了一场关于定价权与竞争范式的深层博弈。
价格上涨了三倍,仍然有“极致性价比”?
在Terminal-Bench 2.1编码测试中, Gemini 3.5 Flash得分76.2%,逼近 GPT -5.5的78.2%;在多步骤工作流MCP Atlas测试中,它以83.6%的成绩领先 Claude Opus 4.7的79.1%和 GPT -5.5的75.3%。
不过,Gemini 3.5 Flash并非没有短板。在涉及硬核抽象推理的测试上,比如ARC-AGI-2(抽象推理图谱)和Humanity‘s Last Exam(人类终极考试),得分不仅低于 -5.5,也不如自家的上一代Pro模型。
Gemini 3.5 Flash的API定价为1.5美元/百万输入token、9美元/百万输出token,相比上一代Gemini 3 Flash Preview(0.5/3美元),价格上涨了3倍,是3.1 Flash-Lite的6倍。事实上,各大厂商都在上调价格:GPT-5.5相比GPT-5.4上涨了2倍, Claude Opus 4.7相比Opus 4.6实际使用成本增加35%。
虽然绝对价格比自己的“丐版”贵了,但在“性能-价格”坐标系中:对比 Claude Opus 4.7的输出价格为25美元/百万输出token,GPT-5.5为30美元,完成相同智力任务,Gemini 3.5 Flash成本仅为Claude Opus 4.7的约36%、GPT-5.5的约30%。
在Artificial Analysis的“智能指数”测试中,Gemini 3.5 Flash(high)需要花费1552美元才能完成完整测试,成本是3.1 Pro的75%更多;而Claude Opus 4.7(Max)则需要5117美元,GPT-5.5(xhigh)需要3357美元。
此外, 谷歌 还推出了极低的缓存定价(每百万token仅0.15美元)。对于需要处理长文档、长期记忆的RAG(检索增强生成)应用,这个价格让竞争对手的定价几乎成了“天价”。而更关键的是速度。而每秒超过280个token的输出速度,使其达到了GPT-5.5和Claude Opus 4.7的4倍 —— 不仅能节省算力费用,还能节省时间成本和算力资源占用。在处理相同吞吐量的任务时,你需要部署的实例更少。
从某种意义上说,Flash并非只是一个“中端产品”,而是 谷歌 用规模优势打出的成本-性能极致组合牌:牺牲了解决“奥数题”的深度推理能力,换取了极致的工具使用能力和极快的响应速度。对于绝大多数企业应用场景(客服、数据分析、代码生成),后者才是刚需,而前者往往属于“性能过剩”。
在GPT-5.5和Claude 4 Opus还在为了那百分之几的跑分提升而疯狂堆高推理成本时,谷歌选择了一条“工程师路线”:与其让模型去解一辈子用不到的微积分,不如让它又快又好地帮你写好代码、处理好邮件。
为什么 AI 竞争从“模型参数”转向“单位经济”?
过去两年,企业拥抱 AI 的最大障碍并非能力不足,而是成本失控。许多公司在季度中期就发现token预算耗尽,不得不限制内部使用。当技术基本盘稳定、模型智能差距缩小时,价格竞争反而变得更加重要。
过去一年,顶级模型与次级模型之间的能力差距,已经从“天壤之别”缩小到了“10%-20%”以内。当GPT-5.5、Claude Opus 4.7、Gemini 3.5 Flash在前沿基准上差距不过几个百分点时,用户的决策天平将迅速从“谁更强”倒向“谁的单位成本产出更高”。
摩根士丹利的研究报告指出,全球数据中心建设耗资巨大,而算力的边际成本正在成为压垮企业利润的最后一根稻草。当算力支出成为天文数字,任何模型厂商都无法再靠“烧钱换规模”维持下去。AI正在告别“补贴换流量”的粗放模式,走向“结果价值导向”的精细化运营。
当AI从“问答”走向“执行”,从单次交互走向持续托管任务,token消耗量是指数级的。这正是谷歌的战略窗口:利用超大规模资本支出、全球云基建和海量用户数据,将推理成本压至竞争对手无法企及的水平。谷歌内部各产品每月处理的token量达到3.2千万亿,较去年I/O增长7倍。AI Mode推出一年,月活已超10亿;Gemini应用月活从去年4亿增至9亿多。
值得注意的是,Gemini 3.5 Flash不仅仅是一个API,它是谷歌整个生态的“心脏起搏器”。Gemini Spark(全天候个人助理)、Antigravity 2.0(多智能体协同平台)以及全面升级的Google Search,底层都由3.5 Flash驱动。