WWW 2026|让MoE路由拥有「记忆」:RMS-MoE用检索记忆协同实现更高效专家调度
机器之心发布
大模型越来越大,Mixture-of-Experts(MoE)已经成为扩展模型参数规模、降低单次计算成本的重要架构之一。但在真实的 Web-scale 系统中,MoE 路由机制仍然存在一个容易被忽视的问题:它往往是「无记忆」的。
对于搜索、问答、对话等高并发场景,大量输入并非完全独立,而是具有显著的语义重复性和结构相似性。传统 MoE 路由器每次都从当前输入出发,重新判断应该激活哪些专家。这意味着,即使模型此前已经在相似输入上找到过有效的专家组合,下一次遇到类似问题时,仍然可能重新探索一遍。
这种「短视」的路由方式会带来三个问题:一是 重复 计 算 ,导致推理延迟和资源浪费;二是 路由不稳定 ,输入稍有扰动就可能触发完全不同的专家集合;三是 专家之间的协作关系难以沉淀 ,模型只是在选择单个专家,而没有显式复用历史上有效的「专家团队」。
针对这一问题,来自马上消费金融、南京航空航天大学、阿里巴巴等机构的研究团队提出了 RMS-MoE (Retrieval-Memory Synergy Mixture-of-Experts)。该工作将 MoE 路由从一次性的分类决策,重新定义为一个「检索 — 记忆 — 融合」的过程:模型不再只依赖当前 router 的即时判断,而是会从历史记忆中检索相似输入曾经激活过的高效专家组合,并与当前路由结果动态融合。
论文标题:Rethinking MoE with Retrieval-Memory Synergy: Towards Efficient Expert Coordination
会议:The ACM Web Conference 2026(WWW 2026)
作者:Wanjie Tao, Qun Dai, Yantong Lv, Quan Lu, Ning Jiang, Zulong Chen
机构:马上消费金融、南京航空航天大学、阿里巴巴
论文链接:https://dl.acm.org/doi/epdf/10.1145/3774904.3792922
MoE 路由为什么需要「记忆」?
MoE 的优势在于 稀疏激活 。给定一个输入,router 会从多个专家中选择少数几个参与计算,从而在保持模型容量的同时降低每次前向计算成本。
然而,当前主流 MoE 路由方式大多仍然遵循一种 stateless paradigm:每个输入独立处理,历史上相似输入的专家选择经验并不会被系统性利用。
这在离线 benchmark 中可能不明显,但在真实 Web 场景中会变得非常关键。例如,在搜索、开放域问答、智能客服和多轮对话中,用户请求往往存在大量语义重叠。同类问题、同类任务、同类表达会反复出现。如果系统每次都重新计算专家分配,就会造成明显的计算冗余。更重要的是,对于语义相近的输入,如果专家激活集合频繁波动,模型行为也会变得不稳定。
RMS-MoE 的出发点是:既然用户输入具有重复性,专家协作模式也应该可以被记住和复用。与传统 RAG 从外部知识库检索文本内容不同,RMS-MoE 检索的不是知识片段,而是模型内部的专家协作模式。换句话说, 它做的是一种 architectural memory:让模型记住自己过去是如何调度专家的 。
RMS-MoE:
从「即时路由」到「检索增强路由」
RMS-MoE 的整体框架 由三个核心模块 构成:Co-Activation Memory(CAM)、Adaptive Fusion Module(AFM)和 Reinforcement-Guided Memory Update。CAM 用于存储和检索历史上有效的专家组合;AFM 用于动态融合记忆先验和当前 router 的实时判断;强化反馈式更新则用任务反馈持续维护记忆质量。
从流程上看,当一个新输入进入模型后,RMS-MoE 首先通过 Input Encoder 得到输入表示,同时标准 router 会生成一个实时专家激活结果。与此同时,CAM 会根据当前输入表示,从记忆库中检索最相似的历史样本,并取出这些样本对应的专家激活模式。随后,模型会根据检索相似度和历史效用信息,聚合得到一个 memory prior,也就是「历史上相似输入更可能适合哪些专家团队」。最后,AFM 会学习一个动态融合权重,将 memory prior 与实时 router 输出结合,得到最终专家激活结果。
这种设计带来的好处是:对于熟悉、重复、语义相近的输入,模型可以更多依赖历史上验证有效的专家组合;对于新颖或低相似度输入,模型仍然可以回退到实时 router,保持灵活性。
RMS-MoE 方法框架图 Co-Activation Memory:
记住的不是知识,而是「专家团队」
RMS-MoE 的关键模块是 Co-Activation Memory 。CAM 可以理解为一个动态 key-value memory。每条记忆包含两部分:key 是输入 embedding,value 是对应的专家激活模式以及相关元信息,例如历史 reward、最近使用情况等。
当新输入到来时,模型会用当前输入 embedding 去 CAM 中检索 top-K 个相似条目。每个条目不仅代表一个相似输入,还携带了该输入曾经激活过的专家组合。随后,RMS-MoE 会结合相似度和历史效用,对这些专家组合进行加权聚合,得到一个专家选择先验。
这里的核心思想是:专家之间的共同激活关系本身就是一种可复用的结构知识。传统 MoE router 往往独立评估每个专家是否应该被激活,而 RMS-MoE 更关注「哪些专家曾经一起有效工作」。这使得模型不只是选择专家,而是在复用专家团队的协作经验。
Adaptive Fusion:
既相信记忆,也保留实时判断
仅有记忆是不够的。如果模型过度依赖历史经验,就可能在遇到新任务、新表达或低频场景时产生错误迁移。因此,RMS-MoE 引入了 Adaptive Fusion Module ,用一个可学习的动态门控系数 β 来控制记忆先验和实时路由之间的平衡。
当当前输入与 CAM 中的历史样本高度相似时,β 会更大,模型更倾向于使用记忆检索得到的专家组合;当相似度较低时,β 会降低,模型则更多依赖当前 router 的即时判断。这使得 RMS-MoE 不会变成一个简单的缓存系统,而是一个能够根据输入熟悉程度自适应决策的路由框架。
简单来说,RMS-MoE 的路由逻辑可以概括为:熟悉的问题,优先复用历史上表现好的专家团队;陌生的问题,回退到当前 router,保持探索能力;模糊的问题,在记忆和实时判断之间动态折中。
强化反馈式更新:让记忆持续进化
为了避免 CAM 退化成静态缓存,RMS-MoE 还设计了 reinforcement-guided memory update 。在训练过程中,模型会根据任务反馈更新记忆条目的效用分数。论文中将负训练损失作为 reward 信号,并使用指数滑动平均更新历史 reward。
同时,CAM 还会记录条目的新近程度,并在容量受限时基于 utility-recency score 进行淘汰。也就是说,一个专家组合如果在历史上多次带来较好任务表现,它就会更容易被保留和再次检索;如果一个组合长期无效或过时,则会逐渐被削弱甚至移除。
此外,CAM 更新被设计为 异步机制 。模型不会在每次前向传播中同步修改索引,而是将更新操作缓冲后批量执行。这种设计避免了检索索引对梯度计算的干扰,也降低了在线更新带来的系统开销。
实验:
在 WebQA 和 MultiWOZ 上同时提升准确率、延迟和稳定性
论文主要在 WebQA 上进行评估。WebQA 包含 120 万个问答样本,并具有约 30% 的查询冗余,非常适合测试记忆增强路由在高重复 Web 场景中的效果。同时,研究团队还在 MultiWOZ 上验证了方法在多轮任务型对话中的泛化能力。
实验对比了多种强 MoE 基线,包括 Switch Transformer、Expert-Choice MoE、Hash-MoE、Soft-MoE 和 DeepSeekMoE。所有模型使用相同的 MoE 基础架构:32 个专家,hidden dimension 为 1024,每个 token 激活 top-4 专家。RMS-MoE 额外设置 CAM 容量为 10^5,检索 top-5 个记忆条目。实验在 8 张 NVIDIA A100 GPU 上运行,并报告 10 次运行的均值和标准差。
在 WebQA 上,RMS-MoE 取得了最优结果 。相较于 DeepSeekMoE,RMS-MoE 的 F1 提升 2.7 个点,归一化延迟从 0.72× 降至 0.53×,约降低 26%。相较于 Switch Transformer,RMS-MoE 的端到端延迟几乎减半。在 MultiWOZ 上,RMS-MoE 也保持了类似趋势,实现了 2.5 个 BLEU 分数提升和 34% 的延迟降低。这说明该方法并不局限于单一问答任务,也能够迁移到多轮对话场景。