全球排名前三，复旦自进化Harness Engineering让GPT‑5.4再涨7个点

速读：模型是信息压缩、智能发生、不确定性的来源。

2026年05月20日 17:16

2026 年以来，OpenAI、Anthropic、LangChain 等机构纷纷发布关于 Harness Engineering 的技术博客，OpenClaw、Hermes Agent 等项目的火爆更让 Harness Engineering 成为业界热词。人们的共识正在形成：模型的能力释放，依赖于一套精密的外部框架。

Harness 的开发与优化是一个工程问题，需要结合模型能力、任务环境共同设计。然而，模型自身以月为单位进化，任务场景往长尾分布发展，Harness 的进化与迭代却高度依赖人工经验。这引出了一个核心问题：在 Harness Engineering 的迭代循环中，哪些部分可以被自动化？如何让 Harness 自动地从经验中学习并改进？

来自复旦大学、北京大学、上海奇绩智峰的团队提出 Agentic Harness Engineering (AHE) ，这是一套可观测性（Observability）驱动的 Harness 自动优化方法，端到端贯穿 Harness Engineering 的全流程，实现了模型能动性的最大程度释放。

论文标题：Agentic Harness Engineering: Observability-Driven Automatic Evolution of Coding-Agent Harnesses

论文链接：arxiv.org/abs/2604.25850

代码仓库：github.com/china-qijizhifeng/agentic-Harness-engineering

项目博客：https://dawning-road.github.io/blog/agentic-Harness-engineering

在实验期间，使用 GPT‑5.4，AHE 在 Terminal-Bench 2 上的分数从 69.7 迭代到 77.0。GPT-5.5发布后，AHE迅速迭代出与之适配的Harness，在 Leaderboard 上位列全球第三。

并且，自动迭代得到的 Harness 展现出良好的模型间泛化以及任务间泛化能力，确保不是在 overfit 评测集。

目前论文在社交平台 X 上收获大量关注，已经有 10w + 浏览讨论。

为什么要设计可观测体系？

Harness Engineering 的三个视角

从形态上看，模型和 Harness 共同构成一个主体和环境进行交互。模型的所有行为都发生在概率空间中，是信息压缩、智能发生、不确定性的来源，而 Harness 是包裹在外的确定性组件：system prompt、工具定义与实现、middleware/hook、skill 文档、sub-agent 编排、长期记忆、日志与观测。在 agent 迈向长程、生产力任务过程中，Harness 是让模型行为稳定、一致、可控的重要保证。

从目的上看，Harness 的职能之一是在模型和环境之间管理一条双向的上下文流：一侧在合适的时机把任务、用户意图、环境状态、外部信息传进模型，另一侧把模型的动作忠实地记录、校验后交回环境执行。

过去，开发者需要手动设计 prompt、复制 terminal 输出、复制外部文档内容给模型，上下文分布在互不相通的空间里，人类依据直觉和观察来决定 context 的构成。因此，Harness 的设计目标之一，就是让 context 的流动可以更加精准、更加自主。

基于以上的形态与目标，Harness Engineering 的方法论是什么？

最直观的，是独立优化各个组件代码，或者称之为 Agent Infra。开发者社区贡献了大量有用的 Harness 组件，用于记忆、上下文管理、沙盒环境、轨迹管理，这依赖于扎实的工程开发与优化，让各个部分的独立地变得更加高效、安全、稳定。

进一步地，对于任意一个特定环境，若要找到最优的 Harness，这就成为了一个模型 x Harness x 环境的组合优化问题。不再能像开发单独组件那样有一个明确的规则，不再能利用人类开发者的先验知识一步到位找出最优组合，而是要开发、观测、迭代，根据模型的运行轨迹、评测分数，反复调整。

人类的注意力是稀缺的，因此，必须让 agent 本身也参与到 Harness 优化的过程中来。只要把优化目标、动作空间、状态空间都以一种 agent 可读的方式呈现，那么就可以引入 agent 进行自主优化。这便是 AHE 设计可观测体系的出发点。

可观测体系：组件、经验、决策

Harness 的开发也分为几个阶段：编写组件、运行 agent、收集反馈。这个过程反复迭代，持续运行。如果要想让 agent 接手人类的工作，就需要在此过程中所产生的 context 可观测，并且做好 context 结构化、层次化。

在此过程中，并不限制 agent 的自主决策空间，只依赖评测结果，以及更多分层信息来辅助它精准修改、准确归因。

AHE 方法由三个角色构成：Coding Agent 负责运行测试，Agent Debugger 负责整理轨迹，Evolve Agent 负责修改 Coding Agent 的 Harness 实现进化。

整个可观测体系分三部分：

NexAU 提供各部分解耦的 Harness，提供 Harness 组件的可观测性；

Agent Debugger 把 10M token 量级的 raw trace 提炼成分层的、可溯源的多维反馈意见，实现经验的可观测性；

Evolve Agent 基于 git 溯源的组件历史、反馈结果，构建证据驱动的完整修改链路，对相应组件进行修改，实现优化行为的可观测性。

主题：模型