BudgetMem:给Runtime Agent Memory装上「预算路由器」,让记忆系统学会按需分配运行成本
Haozhen Zhang 现为 Nanyang Technological University(NTU)博士生,导师 Wenya Wang 为 NTU 计算机与数据科学学院助理教授。团队研究聚焦 LLM Agent Memory、LLM Interpretability 与高效智能体系统,关注大语言模型在 reasoning、memory 与 multimodal grounding 等方面的能力构建,致力于发展更可解释、高效且具备泛化能力的大模型系统。本工作同时与香港科技大学(广州)Chengwei Qin 老师合作完成;Chengwei Qin 现为香港科技大学(广州)人工智能学域助理教授,主要关注大语言模型智能体、多模态学习以及模型的高效学习。
BudgetMem:给 Runtime Agent Memory 装上 “预算路由器”
让记忆系统学会按需分配运行成本
当 LLM Agent 处理长期对话、多轮交互和复杂文档时,Memory 已经成为不可或缺的核心模块。它帮助智能体保存历史、检索信息、维持个性化上下文,并支撑跨时间的推理能力。
但一个现实问题常常被忽视: Agent Memory 到底应该花多少成本来处理历史?
如果一个 query 只需要简单事实,是否有必要调用昂贵的 LLM 进行复杂总结?如果一个 query 依赖跨时间、跨实体、跨主题的多条证据,低成本检索和粗粒度摘要又是否足够?
对此,研究团队提出 BudgetMem: Learning Query-Aware Budget-Tier Routing for Runtime Agent Memory ,旨在让 Agent Memory 从固定的记忆处理流水线,转向 query-aware 的动态预算分配机制:对于简单 query 使用低成本处理路径,对于复杂 query 则自动调用更高质量的记忆模块。
论文:《 Learning Query-Aware Budget-Tier Routing for Runtime Agent Memory 》
链接: https://arxiv.org/abs/2602.06025
背景:固定记忆流水线难以适应不同 Query
现有很多 Agent Memory System 仍然遵循一种固定范式:先离线构建记忆,再在未来统一检索使用。
这种 build once, use always 的方式虽然直观,但存在两个问题。首先,它是 query-agnostic 的。系统在不知道未来问题的情况下提前压缩历史,可能会丢掉后续 query 真正需要的细节。其次,它缺乏显式的 performance-cost control。简单问题和复杂问题往往被同一套流程处理,前者可能浪费成本,后者又可能预算不足。
因此,本文关注一个更贴近真实部署的问题: 当 query 到来时,记忆系统应该花多少计算去处理历史?
Runtime Query-Aware Memory Extraction
BudgetMem 将记忆构建从固定离线流程转向 runtime query-aware extraction 。系统首先将历史保留为原始 chunks,当用户 query 到来时,再检索相关片段,并通过模块化流水线构建 query-focused memory。
在本文实验中,团队采用了一个简单且可解释的模块化实例:
Filtering → Entity / Temporal / Topic Extraction → Summarization
其中,Filtering 负责筛选相关 chunks;Entity、Temporal、Topic 模块分别提取实体、时间和主题相关信息;Summary 模块最终整合为面向当前 query 的记忆。
需要强调的是,这一模块组合只是 BudgetMem 在实验中的具体实例,并不是框架本身的限制。BudgetMem 的核心在于为模块化 memory pipeline 提供统一的 budget-tier interface,因此也可以适配到其他 memory modules 或不同形式的记忆处理流水线中。
关键在于,每个 memory module 都提供 LOW / MID / HIGH 三种 budget tiers。也就是说,同一个模块既可以用低成本方式执行,也可以用更高质量但更昂贵的方式执行。这样,记忆系统不再固定调用同一套流程,而是根据当前 query 的复杂度和信息需求,动态选择合适的记忆处理路径。