告别「单科专家」：首个Agent全面进化框架EEVEE发布

速读：它试图把promptlearning从“单一任务优化”推向更接近真实部署的场景：让智能体在多类型任务不断涌入时，仍然能够继续学习，而不是顾此失彼。 EEVEE最有说服力的结果，不是单个任务上的分数，而是任务不断增加时的表现。

2026年06月22日 09:0

过去两年，AI Agent 的能力边界被不断刷新：会写代码、会调用工具、会反思失败，也开始能在任务执行中积累经验。

但一个更现实的问题正在浮现：

如果一个 Agent 真的被部署到真实世界，它还能继续变强吗？

不是在一个固定 benchmark 上反复刷分，也不是只针对某一种任务改 prompt，而是在真实使用中同时面对代码、数学、知识问答、公式计算、复杂推理等不断变化的任务输入，还能不能持续适应、稳定提升？

这正是 EEVEE 想解决的问题。

来自上海交通大学与普林斯顿大学的研究团队发布了 EEVEE，一个面向 LLM Agent 的测试时提示学习框架。它试图把 prompt learning 从 “单一任务优化” 推向更接近真实部署的场景：让智能体在多类型任务不断涌入时，仍然能够继续学习，而不是顾此失彼。

论文链接：https://arxiv.org/abs/2606.11182

项目主页：https://princeton-ai2-lab.github.io/EEVEE/

开源代码：https://github.com/Princeton-AI2-Lab/EEVEE

单一任务上的进步，还不够

今天已经有很多 prompt optimization 方法可以让模型在一个任务上变得更好。

例如，在一个数学题集上学会更严谨的解题步骤；在一个代码任务上学会输出更规范的函数体；在一个问答任务上学会更符合评测格式的回答。

这很有价值，但它离真实 Agent 还差一步。

真实部署中的 Agent 不会只遇到一种任务。它可能上一秒在写代码，下一秒在做金融公式计算，再下一步又要回答科学问题。不同任务需要的行为完全不同：有的要求严格输出格式，有的要求符号推理，有的要求知识判断，有的要求可执行代码。

如果所有反馈都被塞进同一个 prompt，问题就会出现：

一个任务上学到的经验，可能会伤害另一个任务。

比如，为了公式题学到 “只输出数字”，可能会影响需要解释推理过程的题；为了代码题学到 “只输出函数体”，也可能不适合知识问答。任务越多，单一 prompt 越容易变成一个互相冲突的杂糅体。

这就是 EEVEE 要面对的核心挑战：智能体不能只在单科变强，而要在多种任务中一起进化。

任务越多，差距越明显

EEVEE 最有说服力的结果，不是单个任务上的分数，而是任务不断增加时的表现。

研究团队把多个不同类型的任务依次加入同一个学习过程，观察 prompt learning 方法能不能持续累积收益。

结果非常直接：

当任务越来越多时，一些强基线方法的收益开始停止叠加，甚至跌到负数；而 EEVEE 仍然保持正向提升，最终在任务全部加入后达到约 +42 的累计提升。

换句话说，EEVEE 的优势不是 “单点提分”，而是任务变复杂之后还能继续往上走。

这非常关键。因为真实世界里的 Agent，面对的永远不是一个干净、封闭、单一的任务环境，而是不断变化的任务组合。