登录

跨数据中心的创新:Moonshot AI与清华大学提出PrfaaS架构


速读:随着大型语言模型(LLM)在推理过程中对计算资源的需求不断增加,传统的服务架构面临瓶颈。 PrfaaS架构的设计将计算、网络和存储三大子系统分开管理,通过精确的路由机制确保长请求能高效传输,避免了传统方法中因资源分配不均而导致的拥堵问题。
2026-04-20 10:1

随着大型语言模型(LLM)在推理过程中对计算资源的需求不断增加,传统的服务架构面临瓶颈。Moonshot AI 与清华大学的研究团队最近推出了一种新架构 —— 预填充即服务(PrfaaS),旨在打破大型语言模型服务中对数据中心和计算机资源的限制。

image.png

目前,大型语言模型的推理过程通常分为预填充和解码两个阶段。预填充阶段是模型处理输入并生成键值缓存(KVCache)的高计算密集型过程,而解码阶段则是模型逐个生成输出的内存带宽密集型过程。传统架构需要在同一数据中心中完成这两个阶段,这在计算和带宽上造成了限制。

PrfaaS 通过将预填充任务卸载到专用的高计算集群上,并利用通用以太网将生成的 KVCache 传输到本地解码集群,从而实现了跨数据中心的高效服务。研究表明,该架构在处理性能上显著提升,相比于传统模型,服务吞吐量提高了 54%。在实际案例研究中,该架构还表现出更低的延迟和更高的效率。

PrfaaS 架构的设计将计算、网络和存储三大子系统分开管理,通过精确的路由机制确保长请求能高效传输,避免了传统方法中因资源分配不均而导致的拥堵问题。同时,该系统还引入了双时间尺度调度机制,以应对不同流量模式的变化,进一步优化资源利用。

随着对跨数据中心推理需求的增加和新型硬件的不断涌现,PrfaaS 无疑为未来的 AI 应用提供了新的解决方案。

主题:计算|传统|跨数据中心|大型语言模型