忆联UH 812 a以MLPerf Storage标杆级验证,重塑AI存储效能,奠定智能算力基石
随着AI大模型进入万亿参数时代,传统存储性能测试已难以真实反映存储系统在实际训练场景中对成本与效率的核心影响。为此,全球权威AI基准测评组织MLCommons正式推出MLPerf Storage基准测试套件,为行业建立起一套贴合实际、具有指导意义的权威评估框架。
区别于传统存储性能测试,MLPerf Storage基准的核心价值在于直接评估存储系统能否支撑GPU集群达到并维持高利用率——这直接决定了整体训练耗时与算力资源成本。该基准在v2.0版本中进一步引入Checkpoint工作负载,精准模拟大模型训练中的容灾恢复环节,使评测更贴近前沿场景的实际需求。
为评估忆联Gen5 eSSD UH812a在AI场景中的性能表现,本次测试基于MLPerf Storage v2.0默认参数展开,并特别针对对数据供给要求更高的NVIDIA H100加速器进行模拟验证,以检验存储系统能否充分适配新一代算力平台的性能需求。此次测试覆盖了MLPerf Storage v2.0包含的全部训练负载,包括U-Net 3D、ResNet50、CosmoFlow和Checkpoint。
结果显示,在四项训练模型中,UH812a的 GPU利用率均超过基准要求,表现出强劲的性能;同时在可支持的加速器数量上亦领先于行业同类产品,有力验证了其在高负载AI训练场景下可提供稳定且高性能的存储支持。
测试环境
部件
配置信息
CPU
Intel(R) Xeon(R) Gold 6430 CPU @ 2.1GHz*2
内存
512 GB
存储
系统盘:Union Memory SATA 2*480 GB
数据盘:Union Memory UH812a 7.68 TB
Linux内核版本
Linux 6.17.4-1.el8.elrepo.x86_64
性能测试软件
MLPerf Storage v2.0
测试结果
U-Net 3D训练场景
该场景模拟医疗影像等大体积3D数据的训练过程,要求存储系统持续为多个并发GPU客户端提供大型数据文件(单个约146MB),旨在测试存储的极限顺序读写带宽,确保GPU不会因数据供给不足而出现空闲等待。
在U-Net3D场景负载下,我们共计训练了42000个文件,模拟了1到5颗GPU的训练过程。如图1所示,UH812a在模拟5颗H100 GPU的负载下,实现了14566.46 MB/s的最高吞吐量,接近标称读带宽(14900 MB/s),此时GPU利用率(AU)达到最低96%,远高于基准所要求的90%以上水平。通过图1也可看见,UH812a的性能随着GPU数量增加而线性提升,且GPU利用率仅出现微弱波动,证明其在多客户端高并发访问场景下仍能持续提供稳定、高带宽的数据流。