登录

告别「单科专家」:首个Agent全面进化框架EEVEE发布


速读:它试图把promptlearning从“单一任务优化”推向更接近真实部署的场景:让智能体在多类型任务不断涌入时,仍然能够继续学习,而不是顾此失彼。 EEVEE最有说服力的结果,不是单个任务上的分数,而是任务不断增加时的表现。
2026年06月22日 09:0

过去两年,AI Agent 的能力边界被不断刷新:会写代码、会调用工具、会反思失败,也开始能在任务执行中积累经验。

但一个更现实的问题正在浮现:

如果一 个 Agent 真的被部署到真实世界, 它还能继续变强吗?

不是在一个固定 benchmark 上反复刷分,也不是只针对某一种任务改 prompt,而是在真实使用中同时面对代码、数学、知识问答、公式计算、复杂推理等不断变化的任务输入,还能不能持续适应、稳定提升?

这正是 EEVEE 想解决的问题。

来自上海交通大学与 普林斯顿大学 的研究团队发布了 EEVEE,一个面向 LLM Agent 的测试时提示学习框架。它试图把 prompt learning 从 “单一任务优化” 推向更接近真实部署的场景:让智能体在多类型任务不断涌入时,仍然能够继续学习,而不是顾此失彼。

论文链接:https://arxiv.org/abs/2606.11182

项目主页:https://princeton-ai2-lab.github.io/EEVEE/

开源代码:https://github.com/Princeton-AI2-Lab/EEVEE

单一任务上的进步,还不够

今天已经有很多 prompt optimization 方法可以让模型在一个任务上变得更好。

例如,在一个数学题集上学会更严谨的解题步骤;在一个代码任务上学会输出更规范的函数体;在一个问答任务上学会更符合评测格式的回答。

这很有价值,但它离真实 Agent 还差一步。

真实部署中的 Agent 不会只遇到一种任务。它可能上一秒在写代码,下一秒在做金融公式计算,再下一步又要回答科学问题。不同任务需要的行为完全不同:有的要求严格输出格式,有的要求符号推理,有的要求知识判断,有的要求可执行代码。

如果所有反馈都被塞进同一个 prompt,问题就会出现:

一个任务上学到的经验,可能会伤害另一个任务。

比如,为了公式题学到 “只输出数字”,可能会影响需要解释推理过程的题;为了代码题学到 “只输出函数体”,也可能不适合知识问答。任务越多,单一 prompt 越容易变成一个互相冲突的杂糅体。

这就是 EEVEE 要面对的核心挑战: 智能 体不能只在单科变强,而要在多种任务中一起进化。

任务越多,差距越明显

EEVEE 最有说服力的结果,不是单个任务上的分数,而是任务不断增加时的表现。

研究团队把多个不同类型的任务依次加入同一个学习过程,观察 prompt learning 方法能不能持续累积收益。

结果非常直接:

当任务越来越多时,一些强基线方法的收益开始停止叠加,甚至跌到负数;而 EEVEE 仍然保持正向提升,最终在任务全部加入后达到约  +42 的累计提升 。

换句话说,EEVEE 的优势不是 “单点提分”,而是任务变复杂之后还能继续往上走。

这非常关键。因为真实世界里的 Agent,面对的永远不是一个干净、封闭、单一的任务环境,而是不断变化的任务组合。

主题:任务|问题