WWW 2026｜让MoE路由拥有「记忆」：RMS-MoE用检索记忆协同实现更高效专家调度

速读：三是专家之间的协作关系难以沉淀，模型只是在选择单个专家，而没有显式复用历史上有效的「专家团队」。然而，当前主流MoE路由方式大多仍然遵循一种statelessparadigm：每个输入独立处理，历史上相似输入的专家选择经验并不会被系统性利用。与传统RAG从外部知识库检索文本内容不同，RMS-MoE检索的不是知识片段，而是模型内部的专家协作模式。 RMS-MoE方法框架图。

2026年05月09日 09:13

机器之心发布

大模型越来越大，Mixture-of-Experts（MoE）已经成为扩展模型参数规模、降低单次计算成本的重要架构之一。但在真实的 Web-scale 系统中，MoE 路由机制仍然存在一个容易被忽视的问题：它往往是「无记忆」的。

对于搜索、问答、对话等高并发场景，大量输入并非完全独立，而是具有显著的语义重复性和结构相似性。传统 MoE 路由器每次都从当前输入出发，重新判断应该激活哪些专家。这意味着，即使模型此前已经在相似输入上找到过有效的专家组合，下一次遇到类似问题时，仍然可能重新探索一遍。

这种「短视」的路由方式会带来三个问题：一是重复计算，导致推理延迟和资源浪费；二是路由不稳定，输入稍有扰动就可能触发完全不同的专家集合；三是专家之间的协作关系难以沉淀，模型只是在选择单个专家，而没有显式复用历史上有效的「专家团队」。

针对这一问题，来自马上消费金融、南京航空航天大学、阿里巴巴等机构的研究团队提出了 RMS-MoE （Retrieval-Memory Synergy Mixture-of-Experts）。该工作将 MoE 路由从一次性的分类决策，重新定义为一个「检索 — 记忆 — 融合」的过程：模型不再只依赖当前 router 的即时判断，而是会从历史记忆中检索相似输入曾经激活过的高效专家组合，并与当前路由结果动态融合。

论文标题：Rethinking MoE with Retrieval-Memory Synergy: Towards Efficient Expert Coordination

会议：The ACM Web Conference 2026（WWW 2026）

作者：Wanjie Tao, Qun Dai, Yantong Lv, Quan Lu, Ning Jiang, Zulong Chen

机构：马上消费金融、南京航空航天大学、阿里巴巴

论文链接：https://dl.acm.org/doi/epdf/10.1145/3774904.3792922

MoE 路由为什么需要「记忆」？

MoE 的优势在于稀疏激活。给定一个输入，router 会从多个专家中选择少数几个参与计算，从而在保持模型容量的同时降低每次前向计算成本。

然而，当前主流 MoE 路由方式大多仍然遵循一种 stateless paradigm：每个输入独立处理，历史上相似输入的专家选择经验并不会被系统性利用。

这在离线 benchmark 中可能不明显，但在真实 Web 场景中会变得非常关键。例如，在搜索、开放域问答、智能客服和多轮对话中，用户请求往往存在大量语义重叠。同类问题、同类任务、同类表达会反复出现。如果系统每次都重新计算专家分配，就会造成明显的计算冗余。更重要的是，对于语义相近的输入，如果专家激活集合频繁波动，模型行为也会变得不稳定。

RMS-MoE 的出发点是：既然用户输入具有重复性，专家协作模式也应该可以被记住和复用。与传统 RAG 从外部知识库检索文本内容不同，RMS-MoE 检索的不是知识片段，而是模型内部的专家协作模式。换句话说，它做的是一种 architectural memory：让模型记住自己过去是如何调度专家的。

RMS-MoE：

从「即时路由」到「检索增强路由」

RMS-MoE 的整体框架由三个核心模块构成：Co-Activation Memory（CAM）、Adaptive Fusion Module（AFM）和 Reinforcement-Guided Memory Update。CAM 用于存储和检索历史上有效的专家组合；AFM 用于动态融合记忆先验和当前 router 的实时判断；强化反馈式更新则用任务反馈持续维护记忆质量。

从流程上看，当一个新输入进入模型后，RMS-MoE 首先通过 Input Encoder 得到输入表示，同时标准 router 会生成一个实时专家激活结果。与此同时，CAM 会根据当前输入表示，从记忆库中检索最相似的历史样本，并取出这些样本对应的专家激活模式。随后，模型会根据检索相似度和历史效用信息，聚合得到一个 memory prior，也就是「历史上相似输入更可能适合哪些专家团队」。最后，AFM 会学习一个动态融合权重，将 memory prior 与实时 router 输出结合，得到最终专家激活结果。

这种设计带来的好处是：对于熟悉、重复、语义相近的输入，模型可以更多依赖历史上验证有效的专家组合；对于新颖或低相似度输入，模型仍然可以回退到实时 router，保持灵活性。

RMS-MoE 方法框架图 Co-Activation Memory：

记住的不是知识，而是「专家团队」

RMS-MoE 的关键模块是 Co-Activation Memory 。CAM 可以理解为一个动态 key-value memory。每条记忆包含两部分：key 是输入 embedding，value 是对应的专家激活模式以及相关元信息，例如历史 reward、最近使用情况等。

当新输入到来时，模型会用当前输入 embedding 去 CAM 中检索 top-K 个相似条目。每个条目不仅代表一个相似输入，还携带了该输入曾经激活过的专家组合。随后，RMS-MoE 会结合相似度和历史效用，对这些专家组合进行加权聚合，得到一个专家选择先验。

这里的核心思想是：专家之间的共同激活关系本身就是一种可复用的结构知识。传统 MoE router 往往独立评估每个专家是否应该被激活，而 RMS-MoE 更关注「哪些专家曾经一起有效工作」。这使得模型不只是选择专家，而是在复用专家团队的协作经验。

Adaptive Fusion：

既相信记忆，也保留实时判断

仅有记忆是不够的。如果模型过度依赖历史经验，就可能在遇到新任务、新表达或低频场景时产生错误迁移。因此，RMS-MoE 引入了 Adaptive Fusion Module ，用一个可学习的动态门控系数 β 来控制记忆先验和实时路由之间的平衡。

当当前输入与 CAM 中的历史样本高度相似时，β 会更大，模型更倾向于使用记忆检索得到的专家组合；当相似度较低时，β 会降低，模型则更多依赖当前 router 的即时判断。这使得 RMS-MoE 不会变成一个简单的缓存系统，而是一个能够根据输入熟悉程度自适应决策的路由框架。

简单来说，RMS-MoE 的路由逻辑可以概括为：熟悉的问题，优先复用历史上表现好的专家团队；陌生的问题，回退到当前 router，保持探索能力；模糊的问题，在记忆和实时判断之间动态折中。

强化反馈式更新：让记忆持续进化

为了避免 CAM 退化成静态缓存，RMS-MoE 还设计了 reinforcement-guided memory update 。在训练过程中，模型会根据任务反馈更新记忆条目的效用分数。论文中将负训练损失作为 reward 信号，并使用指数滑动平均更新历史 reward。

同时，CAM 还会记录条目的新近程度，并在容量受限时基于 utility-recency score 进行淘汰。也就是说，一个专家组合如果在历史上多次带来较好任务表现，它就会更容易被保留和再次检索；如果一个组合长期无效或过时，则会逐渐被削弱甚至移除。

此外，CAM 更新被设计为异步机制。模型不会在每次前向传播中同步修改索引，而是将更新操作缓冲后批量执行。这种设计避免了检索索引对梯度计算的干扰，也降低了在线更新带来的系统开销。

实验：

在 WebQA 和 MultiWOZ 上同时提升准确率、延迟和稳定性

论文主要在 WebQA 上进行评估。WebQA 包含 120 万个问答样本，并具有约 30% 的查询冗余，非常适合测试记忆增强路由在高重复 Web 场景中的效果。同时，研究团队还在 MultiWOZ 上验证了方法在多轮任务型对话中的泛化能力。

实验对比了多种强 MoE 基线，包括 Switch Transformer、Expert-Choice MoE、Hash-MoE、Soft-MoE 和 DeepSeekMoE。所有模型使用相同的 MoE 基础架构：32 个专家，hidden dimension 为 1024，每个 token 激活 top-4 专家。RMS-MoE 额外设置 CAM 容量为 10^5，检索 top-5 个记忆条目。实验在 8 张 NVIDIA A100 GPU 上运行，并报告 10 次运行的均值和标准差。

在 WebQA 上，RMS-MoE 取得了最优结果。相较于 DeepSeekMoE，RMS-MoE 的 F1 提升 2.7 个点，归一化延迟从 0.72× 降至 0.53×，约降低 26%。相较于 Switch Transformer，RMS-MoE 的端到端延迟几乎减半。在 MultiWOZ 上，RMS-MoE 也保持了类似趋势，实现了 2.5 个 BLEU 分数提升和 34% 的延迟降低。这说明该方法并不局限于单一问答任务，也能够迁移到多轮对话场景。

主题：路由|模型|问题|记忆