“小显存，大模型”国数集联解读如何降低AI普惠门槛

速读：如果要完整容纳一个DeepSeek671B（FP8需约700GB）或Qwen3235B（FP8需约280GB），仍需多卡并行、显存叠加的方式实现，这直接推高了大模型本地化部署的硬件门槛。场景适配广泛，隐私更有保障：方案特别适合边缘和中小企业本地化部署场景。一套支持千亿模型推理的传统方案，通常需要8卡甚至16卡高端专用显卡，硬件投入动辄数百万元，加上散热、运维等后续开支，远超中小企业的承受范围。同时，该架构为“存算分离”等新一代高效模型架构提供了原生硬件支持，持续降低单位AI能力的获取成本。

2026年02月25日 12:37

实的问题摆在中小企业面前：如何在有限预算内，安全、高效地本地化运行这些模型？国数集联尝试从“运力”的角度给出方案——用更经济的DDR内存和CXL互联技术，缓解对昂贵显存的依赖，让“小显存”也能跑起“大模型”。

一、行业背景：大模型与中小企业之间的“显存墙”

当前，大模型的参数规模已从千亿向万亿迈进，而单张GPU的显存容量却受物理工艺、成本限制，增长相对缓慢。如果要完整容纳一个DeepSeek 671B（FP8需约700GB）或Qwen3 235B（FP8需约280GB），仍需多卡并行、显存叠加的方式实现，这直接推高了大模型本地化部署的硬件门槛。

对于大多数中小企业而言，开源模型的获取已不是问题，真正的障碍在于基础设施成本。一套支持千亿模型推理的传统方案，通常需要8卡甚至16卡高端专用显卡，硬件投入动辄数百万元，加上散热、运维等后续开支，远超中小企业的承受范围。这也意味着，尽管大模型能力强大，但大量企业仍被挡在本地化部署的门外，不得不依赖云端API，进而面临数据隐私泄露、推理延迟较高、长期租赁成本叠加等问题。

其主要问题在于模型参数总量与GPU物理显存容量之间有差距。而单纯堆砌显存的线性扩展模式，不仅成本居高不下，且灵活性极差。国数集联提出的思路是，基于模型MOE（混合专家）架构，不追求将所有参数常驻GPU显存，而是通过异构内存分层管理，让GPU专注于核心计算任务，让大容量DDR或CXL内存池来承担相关职责。这套“小显存、大模型”方案，正是针对这一矛盾的灵活性解法，尤其适合对成本敏感、对数据隐私要求高的边缘端场景和中小企业。

二、实现方案：精准卸载与CXL技术协同，打破显存天花板

所谓“小显存”，是一个相对概念 —— 当GPU的物理显存容量，小于待运行模型的参数总量与KV Cache之和时，就需要借助外部存储资源来弥补。国数集联的思路是基于CPU/KVCache卸载机制，并结合CXL内存池化技术，实现“隐形显存”的高效扩展，即降低硬件成本，又保障必要的推理性能。

CPU Offload解决参数容量瓶颈。

在传统Dense大模型推理中，整个模型的全部参数需常驻GPU显存，以便随时调用。但当模型参数接近或超过显存容量时，模型无法完成启动。国数集联利用MOE模型的特性，将完整模型参数存放于CPU侧的大容量DDR内存（或未来的CXL内存池）中，GPU仅保留当前计算层所需的“活跃专家”参数，计算完成后立即将该部分参数换出，下一层所需的“活跃专家”参数再从CPU侧内存中换入。这一过程由软件调度与硬件指令集协同完成，尽可能减少数据搬运带来的延迟与性能损失。

去年，国数集联已基于SGLang框架完成技术验证：在一张24GB显存的GPU上，配合1024GB DDR内存，实现了4路并发、流畅运行DeepSeek 671B FP8版本，推理速度达到28 tokens/s。截至目前，方案已升级扩展，可支持Qwen系列等主流开源MOE大模型，适配多卡场景，GPU显存可从单卡24GB灵活升级至48GB、96GB甚至更高，DDR内存容量也可按需调整。企业可根据业务增长逐步扩容，无需一次性投入全部硬件成本。

KV Cache Offload解决并发和长上下文瓶颈。

在生成式AI任务中，KV Cache会随对话长度线性增长，占用大量GPU显存，严重限制多路并发能力。国数集联将KV Cache数据卸载到CPU侧内存池中管理，释放GPU显存空间，让其专注于核心计算任务。这一优化，使得在单卡上同时运行多个并发成为可能。

CXL技术的引入，从临时卸载到内存池化。

当前方案中，CPU侧使用的DDR内存仍受限于本地总线带宽和容量上限，难以满足未来更大规模模型的部署需求。随着CXL生态成熟，国数集联正将CXL内存池化技术引入架构升级，实现从“临时卸载”到“常态化内存分层管理”的跨越。

CXL技术的核心优势的在于，允许CPU、GPU、AI加速器等不同设备共享一致的内存空间，并支持内存的灵活扩展和池化管理。未来GPU可直接访问由CXL交换机连接的远端大容量的内存池。如同访问本地内存一样，但内存容量可扩展至TB级别，带宽也随着CXL 3.x/4.0的部署而提升。

这种架构下，卸载不再是权宜之计，而是一种常态化的内存分层管理：热数据（当前活跃参数、高频访问的KV Cache）留在GPU近端显存，温数据（完整参数、低频Cache）置于CXL内存池，冷数据甚至可进一步下沉到CXL SSD。通过这种分层管理，实现性能、成本与灵活性的最佳平衡，为后续更大规模模型的低成本部署奠定基础。。

三、核心价值：低成本、高灵活、易部署，让AI普惠落地

国数集联“小显存、大模型”方案，对中小企业AI本地化应用的价值是多维度的，不仅大幅降低硬件采购成本，更在部署灵活性、运维简便性上实现优化，真正让AI技术能够走进更多中小企业。

成本大幅降低：相比传统的堆卡方案，国数集联“小显存”方案可将硬件成本降低60%以上。企业可使用消费级显卡（如RTX 4090 24GB）起步，配合大容量DDR内存，即可运行百亿甚至千亿模型。尽管在并发性能上与高端多卡方案还有差距，但对于要求不高的场景，性价比极高。

部署灵活，可按需扩展：企业无需一次性投入全部硬件成本，可从一台配备单卡的工作站开始，后续随业务增长逐步增加显卡、内存，或接入CXL内存池，无需推翻原有架构。这种渐进式投资模式，降低了中小企业的初始投入压力，也让AI能力的获取更加平滑。

场景适配广泛，隐私更有保障：方案特别适合边缘和中小企业本地化部署场景。在生产企业，可用于产线质检模型实时推理；在电商行业，可支撑智能客服、商品描述自动生成；在外贸领域，可实现邮件自动回复、多语言翻译；在金融行业，可用于合同审核、简单风险分析；在教科研领域，可满足教学演示、学术研究的算力需求。同时，本地化部署模式避免了数据上传云端，从源头保障数据隐私安全，规避云端服务的延迟风险和长期租赁成本。

运维简便，降低技术门槛：方案基于单卡或少量显卡的架构，系统结构简单，故障点少，无需专业的高端运维团队，更适配中小企业IT团队规模有限的现状。此外，国数集联还提供了优化后的软件栈，集成ComfyUI文生图/视频、图生图/视频等主流智能体应用，用户可实现“开箱即用”，无需投入大量精力进行软件适配和调试，专注于业务创新而非基础设施维护。

四、未来演进：从单点优化到基于CXL的异构资源池

从2025年开始，CXL技术正从概念走向规模化落地，国内外厂商纷纷推出相关产品和方案。例如，英伟达通过收购Enfabrica，推出基于CXL的Emfasys 144T内存集群，优化大规模AI推理的弹性内存架构；Google计划在下一代TPU中采用CXL内存池化，替代或补充HBM；Marvell推出Structera系列产品，实现与主流内存及CPU平台的高效互操作；阿里云则在PolarDB数据库服务器中引入CXL技术，显著提升内存交互性能并降低总体拥有成本（TCO）。

国数集联将沿着“普惠”路径持续深化方案，短期目标包括：进一步优化参数卸载策略和调度算法，支持更多模型，同时提升推理吞吐量和响应速度。推出基于CXL的扩展卡和内存池设备，实现从单服务器扩展至多台边缘设备共享内存资源的跨越，提升资源利用率。此外，国数集联还在探索与UAlink等新一代高速互联技术的融合，构建更高效、更灵活的异构计算平台。

长期来看，随着CXL 3.X及后续版本的普及，真正的异构资源池将成为现实。届时，不仅内存，不同计算单元（GPU、NPU、FPGA）也能被灵活组合，企业可按需从池中调用算力与内存资源，如同使用水电一样便捷。资源配置将极度灵活，可按任务需求动态调整，实现资源利用率和性价比的最大化。同时，该架构为“存算分离”等新一代高效模型架构提供了原生硬件支持，持续降低单位AI能力的获取成本。

五、结论

国数集联的“小显存、大模型”之路，始于一个朴素的问题：如何用更低的成本，让大模型安全可靠地运行在本地？通过CPU/KVCache Offload与CXL技术的协同创新，他们给出了一个切实可行的方案。这套方案并未试图发明比GPU更快的计算硬件，而是通过“运力”架构的创新，让现有GPU在显存受限的条件下释放最大潜力。

未来，随着CXL等高速互联技术的不断演进，AI基础设施的门槛有望进一步降低，普惠AI的愿景将更加接近现实。国数集联始终认为，衡量技术先进性的最终标准，不是参数的堆砌，也不是硬件的奢华，而是能否让更多企业和个人真正用上、用好AI技术。让AI成为推动中小企业数字化转型、赋能实体经济的核心动力。

主题：大模型|国数集联|内存池|中小企业