Agent从「优等生」到「好员工」还差什么？

速读：[1-1][1-2][1-3]。

2026年05月24日 09:34

2026 年以来，Agent 的行业讨论正在从跑分、demo 和工具调用能力转向企业部署。代码仓库、内部数据、客服和运维流程把 Agent 带进真实账号、工具权限和人工审查链路，标准任务完成率难以覆盖权限、链路、成本、审查和事故追责问题。近期围绕 eval、可观测性和工程组织指标的几份报告提出了相近问题，Agent 进入生产后，评估体系需要覆盖上线前、运行中和事故后。

01. Agent benchmark 的定位在如何变化？

Agent benchmark 能证明什么，又漏掉了什么？...

02 . 高分 Agent 在工作时有哪些「坑」？

企业把部署 Agent 为什么要做上线前 eval？运行中的模型路由、工具调用和容量错误为什么必须被观测？AI 编程带来的审查、修复和工具切换成本为什么也要算进评估？ ...

03 . Agent 生产评估如何贯穿上线前后？

企业如何把行为测试、链路观测、失败回放和组织指标接成一套生产评估体系？...

Agent benchmark 的定位在如何变化？

1、过去一年，Agent 在公开演示和 benchmark 中已经不再只是回答问题。网页浏览、代码修改和软件环境操作等连续任务，开始成为外界衡量 Agent 能力的主要方式，系统能否规划步骤、调用工具、维护状态并完成目标，也成了跑分之外更直观的能力证明。[1-1]

① 在此趋势下，业界看到的 Agent 能力指标正在从单次答案质量，扩展到任务完成率、工具调用、执行过程和状态维护等维度。

2、企业更容易把高分 Agent 与可部署生产力联系起来，但实际采用后的体验并不总是跟着跑分走。系统进入真实账号、内部数据、业务流程和人工审查链路后，仍可能出现错误、低效或难以追责的问题，AI 社区也开始重新讨论 Agent 可用性和 benchmark 的适用边界。[1-1] [1-2] [1-3]

① Galileo 和 Datadog 的报告都把问题指向生产环境中的 eval、可靠性和链路观测，说明企业采用 Agent 后遇到的困难并不只来自模型输出质量。

② 高分和可用之间出现落差，并不是要否定 benchmark，而是要求把 benchmark 放回能力筛选和横向比较的位置。

3、在 Agent 进入企业流程之前，benchmark 先承担能力筛选和横向比较功能。Agent benchmark 能帮助企业判断能力起点和横向差异，但仍发生在被设计好的任务和规则里，评价对象还不是完整生产流程。[1-1]

① Agent benchmark 把模型放进网页、软件、代码库或工具环境，观察系统能否在受控任务中规划步骤、调用工具、执行任务并维护状态。

4、能力入口之外，Agent benchmark 的筛选功能并不等同于生产验收功能，能力筛选与生产验收之间的缺口会在企业部署阶段进一步放大。评价对象从受控任务转向企业流程后，安全、成本、可维护性和工作流集成等维度都会进入评估范围，任务是否完成不再等同于执行过程安全、可控、可复现。[1-1]

① Springer 对 15 个主流 Agent benchmark 的综述显示，没有 benchmark 将安全性或安全防护纳入评分，也没有 benchmark 将成本效率纳入主要评估协议。

② 15 个 benchmark 中有 13 个主要依赖二元成功指标，能判断任务是否完成，但较少说明执行过程是否稳定、可控、可复现。

5、当 Agent 进入企业流程，受控测试未纳入评分的验收缺口会转化为更具体的运行风险。Agent 一旦接触账号权限、业务数据、内部工具和人工审查流程，风险不再只是任务未完成，也可能表现为数据误写、链路中断、合规缺口和人工验证成本上升。[1-1] [1-2] [1-3] [1-7]

① Galileo 调研 500 多名企业 AI 从业者，重点分析 AI 评估、AI 可靠性和企业团队的评估实践差异。

② Datadog 基于客户大模型调用遥测数据也显示，Agent 框架采用率从 2025 年初超过 9% 上升到 2026 年初接近 18%。

6、真实流程里的错误修复和责任追溯压力，会把一部分问题推向执行框架。Harness Engineering 关注运行环境、约束机制和纠错回路，目标是让系统更快暴露错误、定位错误并推动修正，但它解决的是 Agent 如何更稳定地运行，不等于完整的生产评估。[1-2] [1-3] [1-5] [1-9]

① Mitchell Hashimoto 将相关实践概括为 harness engineering，重点是让系统更快暴露错误、定位错误并推动修正。

② Datadog、Galileo 和 Harness.io 的报告分别指向链路观测、行为测试和组织指标，说明执行框架仍需生产评估体系配合。

7、即便执行框架能提升运行稳定性，企业还需要判断 Agent 行为是否被测试、执行链路是否被记录、验证成本是否被计入。生产评估需要补上三类信号，分别是上线前行为有没有被测试覆盖，运行中链路有没有被观测，AI 引入后的验证成本有没有被组织指标捕捉。[1-2] [1-3] [1-5]

① 行为测试对应评估覆盖率、测试规格和发布门禁。

② 链路观测对应运行轨迹、工具调用、模型路由、延迟、token 消耗、成本和服务容量；组织指标对应审查、修复、切换工具和开发者信任。

高分 Agent 在工作时有哪些「坑」？

Agent 上线后的问题通常不会只表现为一次错误回答，而是分散在发布、运行和组织管理环节。发布前缺少系统性测试的行为，可能变成上线后的发布风险。运行中缺少模型路由、工具调用和容量错误记录，故障就难以复现和定位。AI 进入工程组织后，审查、修复和切换工具的时间也会改变真实交付成本。Galileo、Datadog 和 Harness.io 的报告分别提供了上线前、运行中和组织层面的数据，反映了 Agent 生产风险的三类缺口...

关注👇🏻 「机器之心PRO会员」，前往「收件箱」查看完整解读

主题：什么|工具调用|定位在如何变化