AI数据中心正在撞上“三堵墙”:为什么高速系统设计最终都会回到PI与SI?
引言
过去几年, AI大模型的发展速度远远超出了传统数据中心架构的演进节奏。从GPT、多模态模型,到视频生成、Agent与具身智能,模型参数规模、训练数据量以及推理负载都在持续增长。与此同时,AI数据中心也正在从传统CPU时代快速进入GPU、AI Accelerator与高速互联时代。
当整个行业都在追求更高算力时,一个越来越明显的问题开始出现:真正限制 AI数据中心继续扩展的,已经不再只是算力芯片数量,而是功耗墙、内存墙和带宽墙。高端AI GPU单卡功耗已经突破700W,单机柜功耗正在接近甚至超过100kW;HBM正在持续推动存储带宽增长;NVLink、InfiniBand、800G Ethernet以及PCIe Gen5/Gen6等高速互联技术不断提升系统吞吐能力。
然而,随着系统规模持续扩大,越来越多的问题开始暴露出来。很多工程师发现,系统稳定性、误码率以及一致性测试问题,往往并非来自协议本身,而是来自更底层的系统设计。最终,这些问题都会回到 PI(Power Integrity)、SI(Signal Integrity)以及EMI(Electromagnetic Interference)之间的复杂耦合关系。

为什么越来越多高速问题的根源来自电源
在高速电路设计中, PI、SI与EMI看似属于不同领域,但在实际系统中却高度关联。业内逐渐形成一个共识:超过半数的SI问题,其根源来自电源质量问题;与此同时,大量EMI超标问题,本质上也来自PDN中的高频噪声。因此,高速设计领域逐渐形成了一条经验:先保障PI,再优化SI。
对于 AI数据中心而言,这种关系尤为明显。随着GPU负载不断变化、供电密度不断提高以及高速互联持续升级,电源系统的任何波动都可能最终体现在信号质量上。
电源完整性 ( PI)测试:比想象中困难得多
PI的核心目标,是为系统提供稳定、洁净且可预测的供电环境。在AI数据中心中,GPU动态负载的剧烈变化、高密度供电架构以及HVDC系统的发展,都让PI测试的重要性持续提升。然而现实情况是,PI并不是单一测试,而是涵盖直流测试、交流测试、瞬态测试以及专项分析测试的一整套验证体系。任何一个环节缺失,都可能为后续量产埋下风险 .
其中最典型的问题之一便是纹波测试。现代芯片供电容错率通常只有 3%~5%,而高端芯片甚至已经低至1%。这意味着电源纹波往往必须控制在10~15mV范围内。然而在实际测试过程中,本底噪声、探头选型、耦合方式以及带宽限制都会影响最终结果。如果测试链路本身存在问题,那么测得的数据就很难真实反映系统状态。