AI数据中心正在撞上“三堵墙”：为什么高速系统设计最终都会回到PI与SI？

速读：为什么越来越多高速问题的根源来自电源。

2026年06月10日 14:4

引言

过去几年， AI大模型的发展速度远远超出了传统数据中心架构的演进节奏。从GPT、多模态模型，到视频生成、Agent与具身智能，模型参数规模、训练数据量以及推理负载都在持续增长。与此同时，AI数据中心也正在从传统CPU时代快速进入GPU、AI Accelerator与高速互联时代。

当整个行业都在追求更高算力时，一个越来越明显的问题开始出现：真正限制 AI数据中心继续扩展的，已经不再只是算力芯片数量，而是功耗墙、内存墙和带宽墙。高端AI GPU单卡功耗已经突破700W，单机柜功耗正在接近甚至超过100kW；HBM正在持续推动存储带宽增长；NVLink、InfiniBand、800G Ethernet以及PCIe Gen5/Gen6等高速互联技术不断提升系统吞吐能力。

然而，随着系统规模持续扩大，越来越多的问题开始暴露出来。很多工程师发现，系统稳定性、误码率以及一致性测试问题，往往并非来自协议本身，而是来自更底层的系统设计。最终，这些问题都会回到 PI（Power Integrity）、SI（Signal Integrity）以及EMI（Electromagnetic Interference）之间的复杂耦合关系。

为什么越来越多高速问题的根源来自电源

在高速电路设计中， PI、SI与EMI看似属于不同领域，但在实际系统中却高度关联。业内逐渐形成一个共识：超过半数的SI问题，其根源来自电源质量问题；与此同时，大量EMI超标问题，本质上也来自PDN中的高频噪声。因此，高速设计领域逐渐形成了一条经验：先保障PI，再优化SI。

对于 AI数据中心而言，这种关系尤为明显。随着GPU负载不断变化、供电密度不断提高以及高速互联持续升级，电源系统的任何波动都可能最终体现在信号质量上。

电源完整性（ PI）测试：比想象中困难得多

PI的核心目标，是为系统提供稳定、洁净且可预测的供电环境。在AI数据中心中，GPU动态负载的剧烈变化、高密度供电架构以及HVDC系统的发展，都让PI测试的重要性持续提升。然而现实情况是，PI并不是单一测试，而是涵盖直流测试、交流测试、瞬态测试以及专项分析测试的一整套验证体系。任何一个环节缺失，都可能为后续量产埋下风险 .

其中最典型的问题之一便是纹波测试。现代芯片供电容错率通常只有 3%~5%，而高端芯片甚至已经低至1%。这意味着电源纹波往往必须控制在10~15mV范围内。然而在实际测试过程中，本底噪声、探头选型、耦合方式以及带宽限制都会影响最终结果。如果测试链路本身存在问题，那么测得的数据就很难真实反映系统状态。

主题：问题|测试|AI数据中心|根源来自电源