“小显存,大模型”国数集联解读如何降低AI普惠门槛
实的问题摆在中小企业面前:如何在有限预算内,安全、高效地本地化运行这些模型?国数集联尝试从“运力”的角度给出方案——用更经济的DDR内存和CXL互联技术,缓解对昂贵显存的依赖,让“小显存”也能跑起“大模型”。
一、行业背景:大模型与中小企业之间的“显存墙”
当前,大模型的参数规模已从千亿向万亿迈进,而单张GPU的显存容量却受物理工艺、成本限制,增长相对缓慢。如果要完整容纳一个DeepSeek 671B(FP8需约700GB)或Qwen3 235B(FP8需约280GB),仍需多卡并行、显存叠加的方式实现,这直接推高了大模型本地化部署的硬件门槛。
对于大多数中小企业而言,开源模型的获取已不是问题,真正的障碍在于基础设施成本。一套支持千亿模型推理的传统方案,通常需要8卡甚至16卡高端专用显卡,硬件投入动辄数百万元,加上散热、运维等后续开支,远超中小企业的承受范围。这也意味着,尽管大模型能力强大,但大量企业仍被挡在本地化部署的门外,不得不依赖云端API,进而面临数据隐私泄露、推理延迟较高、长期租赁成本叠加等问题。
其主要问题在于模型参数总量与GPU物理显存容量之间有差距。而单纯堆砌显存的线性扩展模式,不仅成本居高不下,且灵活性极差。国数集联提出的思路是,基于模型MOE(混合专家)架构,不追求将所有参数常驻GPU显存,而是通过异构内存分层管理,让GPU专注于核心计算任务,让大容量DDR或CXL内存池来承担相关职责。这套“小显存、大模型”方案,正是针对这一矛盾的灵活性解法,尤其适合对成本敏感、对数据隐私要求高的边缘端场景和中小企业。
二、实现方案:精准卸载与CXL技术协同,打破显存天花板
所谓“小显存”,是一个相对概念 —— 当GPU的物理显存容量,小于待运行模型的参数总量与KV Cache之和时,就需要借助外部存储资源来弥补。国数集联的思路是基于CPU/KVCache卸载机制,并结合CXL内存池化技术,实现“隐形显存”的高效扩展,即降低硬件成本,又保障必要的推理性能。
CPU Offload解决参数容量瓶颈。
在传统Dense大模型推理中,整个模型的全部参数需常驻GPU显存,以便随时调用。但当模型参数接近或超过显存容量时,模型无法完成启动。国数集联利用MOE模型的特性,将完整模型参数存放于CPU侧的大容量DDR内存(或未来的CXL内存池)中,GPU仅保留当前计算层所需的“活跃专家”参数,计算完成后立即将该部分参数换出,下一层所需的“活跃专家”参数再从CPU侧内存中换入。这一过程由软件调度与硬件指令集协同完成,尽可能减少数据搬运带来的延迟与性能损失。
去年,国数集联已基于SGLang框架完成技术验证:在一张24GB显存的GPU上,配合1024GB DDR内存,实现了4路并发、流畅运行DeepSeek 671B FP8版本,推理速度达到28 tokens/s。截至目前,方案已升级扩展,可支持Qwen系列等主流开源MOE大模型,适配多卡场景,GPU显存可从单卡24GB灵活升级至48GB、96GB甚至更高,DDR内存容量也可按需调整。企业可根据业务增长逐步扩容,无需一次性投入全部硬件成本。
KV Cache Offload解决并发和长上下文瓶颈。
在生成式AI任务中,KV Cache会随对话长度线性增长,占用大量GPU显存,严重限制多路并发能力。国数集联将KV Cache数据卸载到CPU侧内存池中管理,释放GPU显存空间,让其专注于核心计算任务。这一优化,使得在单卡上同时运行多个并发成为可能。
CXL技术的引入,从临时卸载到内存池化。
当前方案中,CPU侧使用的DDR内存仍受限于本地总线带宽和容量上限,难以满足未来更大规模模型的部署需求。随着CXL生态成熟,国数集联正将CXL内存池化技术引入架构升级,实现从“临时卸载”到“常态化内存分层管理”的跨越。
CXL技术的核心优势的在于,允许CPU、GPU、AI加速器等不同设备共享一致的内存空间,并支持内存的灵活扩展和池化管理。未来GPU可直接访问由CXL交换机连接的远端大容量的内存池。如同访问本地内存一样,但内存容量可扩展至TB级别,带宽也随着CXL 3.x/4.0的部署而提升。
这种架构下,卸载不再是权宜之计,而是一种常态化的内存分层管理:热数据(当前活跃参数、高频访问的KV Cache)留在GPU近端显存,温数据(完整参数、低频Cache)置于CXL内存池,冷数据甚至可进一步下沉到CXL SSD。通过这种分层管理,实现性能、成本与灵活性的最佳平衡,为后续更大规模模型的低成本部署奠定基础。。
三、核心价值:低成本、高灵活、易部署,让AI普惠落地
国数集联“小显存、大模型”方案,对中小企业AI本地化应用的价值是多维度的,不仅大幅降低硬件采购成本,更在部署灵活性、运维简便性上实现优化,真正让AI技术能够走进更多中小企业。
成本大幅降低:相比传统的堆卡方案,国数集联“小显存”方案可将硬件成本降低60%以上。企业可使用消费级显卡(如RTX 4090 24GB)起步,配合大容量DDR内存,即可运行百亿甚至千亿模型。尽管在并发性能上与高端多卡方案还有差距,但对于要求不高的场景,性价比极高。
部署灵活,可按需扩展:企业无需一次性投入全部硬件成本,可从一台配备单卡的工作站开始,后续随业务增长逐步增加显卡、内存,或接入CXL内存池,无需推翻原有架构。这种渐进式投资模式,降低了中小企业的初始投入压力,也让AI能力的获取更加平滑。
场景适配广泛,隐私更有保障:方案特别适合边缘和中小企业本地化部署场景。在生产企业,可用于产线质检模型实时推理;在电商行业,可支撑智能客服、商品描述自动生成;在外贸领域,可实现邮件自动回复、多语言翻译;在金融行业,可用于合同审核、简单风险分析;在教科研领域,可满足教学演示、学术研究的算力需求。同时,本地化部署模式避免了数据上传云端,从源头保障数据隐私安全,规避云端服务的延迟风险和长期租赁成本。
运维简便,降低技术门槛:方案基于单卡或少量显卡的架构,系统结构简单,故障点少,无需专业的高端运维团队,更适配中小企业IT团队规模有限的现状。此外,国数集联还提供了优化后的软件栈,集成ComfyUI文生图/视频、图生图/视频等主流智能体应用,用户可实现“开箱即用”,无需投入大量精力进行软件适配和调试,专注于业务创新而非基础设施维护。
四、未来演进:从单点优化到基于CXL的异构资源池
从2025年开始,CXL技术正从概念走向规模化落地,国内外厂商纷纷推出相关产品和方案。例如,英伟达通过收购Enfabrica,推出基于CXL的Emfasys 144T内存集群,优化大规模AI推理的弹性内存架构;Google计划在下一代TPU中采用CXL内存池化,替代或补充HBM;Marvell推出Structera系列产品,实现与主流内存及CPU平台的高效互操作;阿里云则在PolarDB数据库服务器中引入CXL技术,显著提升内存交互性能并降低总体拥有成本(TCO)。
国数集联将沿着“普惠”路径持续深化方案,短期目标包括:进一步优化参数卸载策略和调度算法,支持更多模型,同时提升推理吞吐量和响应速度。推出基于CXL的扩展卡和内存池设备,实现从单服务器扩展至多台边缘设备共享内存资源的跨越,提升资源利用率。此外,国数集联还在探索与UAlink等新一代高速互联技术的融合,构建更高效、更灵活的异构计算平台。
长期来看,随着CXL 3.X及后续版本的普及,真正的异构资源池将成为现实。届时,不仅内存,不同计算单元(GPU、NPU、FPGA)也能被灵活组合,企业可按需从池中调用算力与内存资源,如同使用水电一样便捷。资源配置将极度灵活,可按任务需求动态调整,实现资源利用率和性价比的最大化。同时,该架构为“存算分离”等新一代高效模型架构提供了原生硬件支持,持续降低单位AI能力的获取成本。
五、结论
国数集联的“小显存、大模型”之路,始于一个朴素的问题:如何用更低的成本,让大模型安全可靠地运行在本地?通过CPU/KVCache Offload与CXL技术的协同创新,他们给出了一个切实可行的方案。这套方案并未试图发明比GPU更快的计算硬件,而是通过“运力”架构的创新,让现有GPU在显存受限的条件下释放最大潜力。
未来,随着CXL等高速互联技术的不断演进,AI基础设施的门槛有望进一步降低,普惠AI的愿景将更加接近现实。国数集联始终认为,衡量技术先进性的最终标准,不是参数的堆砌,也不是硬件的奢华,而是能否让更多企业和个人真正用上、用好AI技术。让AI成为推动中小企业数字化转型、赋能实体经济的核心动力。