BudgetMem：给Runtime Agent Memory装上「预算路由器」，让记忆系统学会按需分配运行成本

速读：BudgetMem：给RuntimeAgentMemory装上「预算路由器」，让记忆系统学会按需分配运行成本2026年06月14日16:02机器之心ProHaozhenZhang现为NanyangTechnologicalUniversity（NTU）博士生，导师WenyaWang为NTU计算机与数据科学学院助理教授。因此，本文关注一个更贴近真实部署的问题：当query到来时，记忆系统应该花多少计算去处理历史？ LearningQuery-AwareBudget-TierRoutingforRuntimeAgentMemory，旨在让AgentMemory从固定的记忆处理流水线，转向query-aware的动态预算分配机制：对于简单query使用低成本处理路径，对于复杂query则自动调用更高质量的记忆模块。

2026年06月14日 16:

Haozhen Zhang 现为 Nanyang Technological University（NTU）博士生，导师 Wenya Wang 为 NTU 计算机与数据科学学院助理教授。团队研究聚焦 LLM Agent Memory、LLM Interpretability 与高效智能体系统，关注大语言模型在 reasoning、memory 与 multimodal grounding 等方面的能力构建，致力于发展更可解释、高效且具备泛化能力的大模型系统。本工作同时与香港科技大学（广州）Chengwei Qin 老师合作完成；Chengwei Qin 现为香港科技大学（广州）人工智能学域助理教授，主要关注大语言模型智能体、多模态学习以及模型的高效学习。

BudgetMem：给 Runtime Agent Memory 装上 “预算路由器”

让记忆系统学会按需分配运行成本

当 LLM Agent 处理长期对话、多轮交互和复杂文档时，Memory 已经成为不可或缺的核心模块。它帮助智能体保存历史、检索信息、维持个性化上下文，并支撑跨时间的推理能力。

但一个现实问题常常被忽视： Agent Memory 到底应该花多少成本来处理历史？

如果一个 query 只需要简单事实，是否有必要调用昂贵的 LLM 进行复杂总结？如果一个 query 依赖跨时间、跨实体、跨主题的多条证据，低成本检索和粗粒度摘要又是否足够？

对此，研究团队提出 BudgetMem: Learning Query-Aware Budget-Tier Routing for Runtime Agent Memory ，旨在让 Agent Memory 从固定的记忆处理流水线，转向 query-aware 的动态预算分配机制：对于简单 query 使用低成本处理路径，对于复杂 query 则自动调用更高质量的记忆模块。

论文：《 Learning Query-Aware Budget-Tier Routing for Runtime Agent Memory 》

链接： https://arxiv.org/abs/2602.06025

背景：固定记忆流水线难以适应不同 Query

现有很多 Agent Memory System 仍然遵循一种固定范式：先离线构建记忆，再在未来统一检索使用。

这种 build once, use always 的方式虽然直观，但存在两个问题。首先，它是 query-agnostic 的。系统在不知道未来问题的情况下提前压缩历史，可能会丢掉后续 query 真正需要的细节。其次，它缺乏显式的 performance-cost control。简单问题和复杂问题往往被同一套流程处理，前者可能浪费成本，后者又可能预算不足。

因此，本文关注一个更贴近真实部署的问题：当 query 到来时，记忆系统应该花多少计算去处理历史？

Runtime Query-Aware Memory Extraction

BudgetMem 将记忆构建从固定离线流程转向 runtime query-aware extraction 。系统首先将历史保留为原始 chunks，当用户 query 到来时，再检索相关片段，并通过模块化流水线构建 query-focused memory。

在本文实验中，团队采用了一个简单且可解释的模块化实例：

Filtering → Entity / Temporal / Topic Extraction → Summarization

其中，Filtering 负责筛选相关 chunks；Entity、Temporal、Topic 模块分别提取实体、时间和主题相关信息；Summary 模块最终整合为面向当前 query 的记忆。

需要强调的是，这一模块组合只是 BudgetMem 在实验中的具体实例，并不是框架本身的限制。BudgetMem 的核心在于为模块化 memory pipeline 提供统一的 budget-tier interface，因此也可以适配到其他 memory modules 或不同形式的记忆处理流水线中。

关键在于，每个 memory module 都提供 LOW / MID / HIGH 三种 budget tiers。也就是说，同一个模块既可以用低成本方式执行，也可以用更高质量但更昂贵的方式执行。这样，记忆系统不再固定调用同一套流程，而是根据当前 query 的复杂度和信息需求，动态选择合适的记忆处理路径。

主题：记忆|问题|系统|记忆系统