登录

警惕!大模型成本倒挂:你正在为模型的多余「思考」买单


速读:首先,推理token是模型开销的主要来源。 对于给定查询,成本是两个价格按提示token数和输出token数加权的总和。 根据API标价,Gemini3Flash是第三便宜的模型,但它在MMLUPro上是最昂贵的。 (a)标价排名与实际成本排名之间的相关性在所有任务中均显著提高。
2026年04月14日 15:

在选择使用大模型 (LLM) 时,除了模型性能强弱,价格也是一个重要指标。人们通常会用大模型的 API 定价更贵或更便宜,来比较模型的价格高低。但事实上,定价低的模型真的比定价高的模型使用起来更便宜吗?

如今,一项来自斯坦福、加州伯克利大学、卡内基梅隆大学和微软研究院的研究,揭示了 AI 模型中的价格倒挂现象: 低定价的 AI 模型,反 而有可 能产生 更高的实际开销!

论文地址:https://arxiv.org/abs/2603.23971

图 1 给出了主流模型的定价和它们在实际任务上的开销。

图 1: 左图展示了模型定价和实际花销的关系,右图给主流模型定价和实际价格各自排序。揭示了价格倒挂现象:低定价的模型反而产生了更高的实际开销。

GPT-5.2 的 API 定价是 Gemini 3 Flash 的 4.5 倍,但其实际成本仅为 Gemini 3 Flash 的 81%。类似地,Claude Opus 4.6 的 API 定价是 Google Gemini 3.1 Pro 的两倍,但其实际成本却低了 35%。

这到底是怎么回事?今天,我们就一起探讨这项研究。

AI 模型开销的审计框架

为了精准刻画 AI 模型的实际开销,研究聚焦于 8 个广泛使用的前沿推理模型,包括 GPT-5.2、GPT-5 Mini、Gemini 3.1 Pro、Gemini 3 Flash、Claude Opus 4.6、Claude Haiku 4.5、Kimi K2.5 和 MiniMax M2.5。 推理任务则囊括了包括 AIME、 Humanity's Last Exam、MMLUPro 等 9 个主流数据集。

前沿模型通常采用 按量付费 的定价机制,即用户为发送的每个查询分别付费。

这种定价机制对于给定模型通常涉及两个组成部分: 每单位输入 token 的价格,以及每单位输出 token 的价格 。对于给定查询,成本是两个价格按提示 token 数和输出 token 数加权的总和。(为了便于理解, 下文中的讨论都使用平均加权。 对更多不同加权情况感兴趣的话,可以在互动网站上尝试: https://price-reversal.streamlit.app/ )

AI 模型的成本倒挂现象

图 2: 实际成本排名在不同任务之间存在显著差异。 图 2: 实际成本排名在不同任务之间存在显著差异。 测试发现: 定价排名与实际成本排名的巨大反差,且这样的价格逆转是普遍存在的。 根据固定标价 API 定价进行的标准评估是具有误导性的。

例如,Gemini 3 Flash 的标价($3.5)仅为 GPT-5.2 价格($15.75)的 22%, 但其在 MMLUPro 上的实际成本实际上是后者的六倍(见图2)!

根据 API 标价,Gemini 3 Flash 是第三便宜的模型,但它在 MMLUPro 上是最昂贵的。其实际成本几乎是 Gemini 3.1 Pro 的两倍。

为量化价格逆转的普遍程度,研究人员检查了所有 8 个模型组成的 28 个模型对,在 9 项任务上的表现,共产生 252 次成对成本比较,其中  21.8%(55 次)比 较表 现出价格逆转 。

这意味着,仅基于标价的成本判断中,大约每五次就有一次是错误的。同时模型的相对成本排序高度依赖于任务。一个在某个数据集上便宜的的模型可能在另一个数据集上成为最昂贵的之一。

为什么会出现倒挂现象?

我们先来介绍一个有趣的现象:一个富人和穷人同时购买靴子。富人花费了 100 元购买了一双好靴子,而穷人为了省钱,只能支付 15 元购买了坏靴子。好靴子可以使用 10 年,而坏靴子只能使用 1 年。结果,穷人不得不每年购买一双坏靴子。一个悖论就此出现了:穷人为了省钱购买了便宜的靴子,但却花费了更多的钱。这就是社会经济学中著名的 靴子理论(Boots Theory) :看上去价格便宜的商品,有可能带来更高的总成本。

研究发现有些 AI 模型也出现了类似的 “靴子现象”, 问题的关键是 推理 token 。

图 3:  图 3:  图中展示了模型真实价格的具体拆分:输入、推理、输出。不同模型在相同任务上消耗的推理token 数量差异巨大。

首先, 推理 token 是模型开销的主要来源 。如图 3 所示,在模型的开销里,输入的 prompt 和输出的最终结果通常只消耗总成本的 10% 不到,而大部分的开销都来自于推理 token。这一分解揭示了思考 token 几乎在所有模型中都是主导的成本组成部分。其次,不同模型的推理 token 的数量差距极大!例如,Gemini 3 Flash 所生成的推理 token,是 GPT-5.2 的将近 10 倍。

图 4: 在同一道 AIME 题目上,GPT-5.2 使用 562 个思考 token,而 Gemini 3 Flash 使用超过 11,000 个,导致实际成本高出 2.5 倍。

图 4 给出了一个具体的例子。给定同一道 AIME 2025 题目,GPT-5.2 和 Gemini 3 Flash 得出的最终答案一样,最终的思路也大致相同。然而,得到这一思路和答案的过程却大相径庭:GPT-5.2 仅仅使用约五百个 token 就完成了思考,而 Gemini Flash 却需要超过一万个 token。这揭示了开销逆转的本质来源于思考 token 数量的巨大差距。

图 5: 从实际成本计算中去除思考 token 成本。(a) 标价排名与实际成本排名之间的相关性在所有任务中均显著提高。(b) 成对排名逆转数平均减少 70%。

事实上,去掉思考 token 可以使得实际开销和模型定价保持高度一致。如图 5 所示,去除思考 token 成本显著恢复了所有 9 项任务的排名一致性,并且使得排名逆转的数量减少了 70%。这进一步验证了 思考 token 才是成本倒挂的隐藏杀手 。

我们可以直接预测任务成本吗?

图 6: 实际开销的不可预测性。对每一个 AIME 数据集上的任务跑 5 次所产生的推理 token 数量。对于固定的任务和固定的模型,多次实验所产生的 token 数,也有着巨大的差异。这意味着推理 token 数量本身就是不可预测的。

既然定价不能准确反映实际开销,我们是否可以直接预测实际开销呢?

实践表明: 实际开销其实是一个高度不可预测的量!

如图 5 所示,研究人员在数学竞赛数据集上多次运行同一个模型,发现它们的推理 token 的数量差距巨大。例如,对第 6 个任务,GPT-5.2 的推理 token 数最大可达五万,最低只需 2 万,达到了 2.5 倍的差距。这就意味着,推理 token 数本身带有巨大的随机性,因此, 推理 token 数 具有高度 的不确定性和不可预测性 ,从而让实际开销的预测变得极为困难。

结论

这一研究发现了  AI 模型领域的靴子现象 :定价更低的模型反而可能带来更高的实际开销。同时,它又指出了 实际开销的不确定性和不可预测性 。这表明,要选取物美价廉的 AI 模型,并不是看看价目表就够了。

作者们还开源了使用的数据,提供了一个可互动的网站,为后续研究提供了基础。 

数据: https://github.com/lchen001/pricing-reversal

网站: https://price-reversal.streamlit.app/

作者介绍

本文由来自斯坦福大学、加州伯克利大学、卡内基梅隆大学、和微软研究院的 Lingjiao Chen, Chi Zhang, Yeye He, Ion Stoica,Matei Zaharia,James Zou 等 6 位作者完成。

Lingjiao Chen,斯坦福大学博士,微软研究院资深研究员。

Chi Zhang,卡耐基梅隆大学博士。

Yeye He,微软研究院首席研究员。

Ion Stoica,加州伯克利大学教授,美国工程院院士,Databricks 创始人兼主席。

Matei Zaharia,加州伯克利大学教授,Databricks 创始人兼首席技术官。

James Zou,斯坦福大学教授。

主题:模型|定价|价格|成本|AI模型|实际开销|价格倒挂现象