登录

全球排名前三,复旦自进化Harness Engineering让GPT‑5.4再涨7个点


速读:模型是信息压缩、智能发生、不确定性的来源。
2026年05月20日 17:16

2026 年以来,OpenAI、Anthropic、LangChain 等机构纷纷发布关于 Harness Engineering 的技术博客,OpenClaw、Hermes Agent 等项目的火爆更让 Harness Engineering 成为业界热词。人们的共识正在形成: 模型的能力释放,依赖于一套精密的外部框架 。

Harness 的开发与优化是一个工程问题,需要结合模型能力、任务环境共同设计。然而,模型自身以月为单位进化,任务场景往长尾分布发展,Harness 的进化与迭代却高度依赖人工经验。 这引出了一个核心问题: 在 Harness Engineering 的迭代循环中,哪些部分可以被自动化?如何让 Harness 自动地从经验中学习并改进?

来自复旦大学、北京大学、上海奇绩智峰的团队提出  Agentic Harness Engineering (AHE) ,这是一套可观测性(Observability)驱动的 Harness 自动优化方法,端到端贯穿 Harness Engineering 的全流程,实现了模型能动性的最大程度释放。

论文标题:Agentic Harness Engineering: Observability-Driven Automatic Evolution of Coding-Agent Harnesses

论文链接:arxiv.org/abs/2604.25850

代码仓库:github.com/china-qijizhifeng/agentic-Harness-engineering

项目博客:https://dawning-road.github.io/blog/agentic-Harness-engineering 

在实验期间,使用 GPT‑5.4,AHE 在 Terminal-Bench 2 上的分数从 69.7 迭代到 77.0。GPT-5.5发布后,AHE迅速迭代出与之适配的Harness, 在 Leaderboard 上位列全球第三 。

并且,自动迭代得到的 Harness 展现出良好的 模型间泛化 以及 任务间泛化 能力,确保不是在 overfit 评测集。

目前论文在社交平台 X 上收获大量关注,已经有 10w + 浏览讨论。

为什么要设计可观测体系?

Harness Engineering 的三个视角

从形态上看,模型和 Harness 共同构成一个主体和环境进行交互。模型的所有行为都发生在概率空间中,是信息压缩、智能发生、不确定性的来源,而 Harness 是包裹在外的确定性组件:system prompt、工具定义与实现、middleware/hook、skill 文档、sub-agent 编排、长期记忆、日志与观测。在 agent 迈向长程、生产力任务过程中,Harness 是让模型行为稳定、一致、可控的重要保证。

从目的上看,Harness 的职能之一是在模型和环境之间管理一条双向的上下文流:一侧在合适的时机把任务、用户意图、环境状态、外部信息传进模型,另一侧把模型的动作忠实地记录、校验后交回环境执行。

过去,开发者需要手动设计 prompt、复制 terminal 输出、复制外部文档内容给模型,上下文分布在互不相通的空间里,人类依据直觉和观察来决定 context 的构成。因此,Harness 的设计目标之一,就是让 context 的流动可以更加精准、更加自主。

基于以上的形态与目标,Harness Engineering 的方法论是什么?

最直观的,是 独立优化各个组件代码 ,或者称之为 Agent Infra。开发者社区贡献了大量有用的 Harness 组件,用于记忆、上下文管理、沙盒环境、轨迹管理,这依赖于扎实的工程开发与优化,让各个部分的独立地变得更加高效、安全、稳定。

进一步地,对于任意一个特定环境,若要找到最优的 Harness,这就成为了一个模型 x Harness x 环境的组合优化问题。不再能像开发单独组件那样有一个明确的规则,不再能利用人类开发者的先验知识一步到位找出最优组合,而是要开发、观测、迭代,根据模型的运行轨迹、评测分数,反复调整。

人类的注意力是稀缺的,因此,必须让 agent 本身也参与到 Harness 优化的过程中来。只要把优化目标、动作空间、状态空间都以一种 agent 可读的方式呈现,那么就可以引入 agent 进行自主优化。这便是 AHE 设计可观测体系的出发点。

可观测体系:组件、经验、决策

Harness 的开发也分为几个阶段:编写组件、运行 agent、收集反馈。这个过程反复迭代,持续运行。如果要想让 agent 接手人类的工作,就需要在此过程中所产生的 context 可观测,并且做好 context 结构化、层次化。

在此过程中,并不限制 agent 的自主决策空间,只依赖评测结果,以及更多分层信息来辅助它精准修改、准确归因。

AHE 方法由三个角色构成:Coding Agent 负责运行测试,Agent Debugger 负责整理轨迹,Evolve Agent 负责修改 Coding Agent 的 Harness 实现进化。

整个可观测体系分三部分:

NexAU 提供各部分解耦的 Harness,提供 Harness 组件的可观测性;

Agent Debugger 把 10M token 量级的 raw trace 提炼成分层的、可溯源的多维反馈意见,实现经验的可观测性;

Evolve Agent 基于 git 溯源的组件历史、反馈结果,构建证据驱动的完整修改链路,对相应组件进行修改,实现优化行为的可观测性。

主题:模型