花了1000倍的token，效果可能却没有更好：AI Agent的“隐性账单”长什么样

速读：从图中可以发现，最贵的任务可能比最便宜的任务多消耗约700万token，并且越贵的任务token消耗的标准差也越大。当开销最低时，任务运行的准确率最低，当提高开销稍微提高时，准确率达到最高，继续增加开销，当开销第二高和最高时，准确率不增反减——。对于不同任务来说，论文根据平均token消耗的数量进行分组，并统计每组任务的准确率，结果发现token消耗更多的任务往往准确率较低。

2026年05月17日 11:06

如今的 AI Agent 正在大规模落地，其中应用最广且最受关注的当数 Claude Code，Codex，Cursor 这类 coding agent。过去的一年里，这类 coding agent 产品迭代迅速，在一年内将在 swe-bench- verified 的准确率提高到了 78%+。

然而，相比简单的代码推理或者和代码相关的聊天，coding agent 的 token 消耗也极为显著。在使用这种 coding agent 的过程中，最常听到的抱怨也是：“为什么它解决问题这么啰嗦”，“为什么要这么长篇大论”，以及 “为什么我的 credits 这么快又用完了？”

这些抱怨的背后暴露出当前 coding agent 的几大问题：

1. 不透明： coding agent 消耗 token 的习惯不清晰，行为模式以及不同模型之间的差异不透明；

2. 不保底：在任务执行前难以知道任务成功与否，但不论是否成功，都要支付相应开销；

3. 不可预测：人类估计的问题难度真的和实际的 token 消耗匹配吗？agent 能否自己判断问题会消耗多少 token 呢？

针对这些问题，来自密歇根大学、斯坦福大学等单位的研究者，使用开源的 OpenHands agent 框架，分析了 8 个 frontier 模型在 swe-bench-verified 上的轨迹，第一次给出了一份系统性的解答。

论文标题： HowDoAIAgentsSpendYourMoney? AnalyzingandPre dicting Token Consumption in Agentic Coding Tasks

arXiv 论文：https://arxiv.org/pdf/2604.22750

项目网站：https://longjubai.github.io/agent_token_consumption/

Agentic Coding 有多贵？

论文首先比较了和 coding 相关的 3 种任务：代码推理（和代码相关的单论对话推理任务），代码问答对话（关于代码问题的多轮对话聊天），以及 swe-bench 上的 agentic 代码任务。结果发现，agentic coding 任务在平均输出输入 token 比，平均总 token 消耗，以及平均金钱消耗，均指数级高于其他两种任务。

这源自于 agentic coding 任务的多轮交互和巨大而复杂的上下文管理：巨量的代码查询，文件输出都会被加入到对话历史中，导致消耗持续增加，并且 agent 会不断把历史上下文、工具输出反复喂给模型，导致输入输出比高达 154:1。这意味着 agentic coding 任务的成本结构与我们所熟悉的对话和推理任务有显著的不同。

Agentic Coding 的开销随机性高，

且花的越多不一定做得越好

论文统计了 swe-bench-verified 中 500 个问题的平均 token 消耗，并将消耗从小到大排序。从图中可以发现，最贵的任务可能比最便宜的任务多消耗约 700 万 token，并且越贵的任务 token 消耗的标准差也越大。

对同一任务的重复运行来说，通过计算最贵的一次运行和最便宜的一次运行的差异，结果发现即使是同一任务，最贵的运行仍可能比最便宜的运行贵 2 两倍左右。

进一步分析 token 消耗多少与准确率的关系，论文发现更多的消耗并不能保证更高的准确率。

对于不同任务来说，论文根据平均 token 消耗的数量进行分组，并统计每组任务的准确率，结果发现 token 消耗更多的任务往往准确率较低。

对于同一个任务的不同运行来说，将 4 次运行按照 token 消耗排序，分成四个开销等级，然后统计每一个开销等级的准确率。结果发现：平均所有模型来看，最高的准确率并不出现在开销最高的时候，而是出现在较低开销时。当开销最低时，任务运行的准确率最低，当提高开销稍微提高时，准确率达到最高，继续增加开销，当开销第二高和最高时，准确率不增反减 —— 更多的资源消耗并没有带来更高的任务成功率。

主题：token消耗|agenticcoding任务|swe-bench-verified