智谱发布Infra新成果，同等硬件投入下算力多出15%

速读：5月21日消息，智谱今日宣布落地部署了一项直接影响大模型推理效率的架构创新ZCube。

2026年05月21日 12:46

5月21日消息，智谱今日宣布落地部署了一项直接影响大模型推理效率的架构创新ZCube：在线上GLM-5.1 coding场景中，在保持GPU算力、软件栈与应用不变的前提下，ZCube节省了33%交换机与光模块成本，同时将GPU平均推理吞吐提升了15%，并将TTFT P99降低了40.6%。

这意味着，同样的硬件投入下，智谱GLM大模型现在每秒能多响应15%的API请求。

关键词 :

硬件 gpu 推理

新浪众测

新浪科技公众号

“掌”握科技鲜闻（微信搜索techsina或扫描左侧二维码关注）

“不好看就退票”服务，能救电影院吗？

微信封禁自家“兄弟”红包，打的什么牌？

华住，比携程还会捞金？

苏州一小学网购45把雨伞用完退回还全损引热议家委会致歉补款：商家发声

对标百万级燃油GT 雷军坦言YU7 GT定价"会有点小贵"

巨亏千亿销量暴跌87%！百年豪车换标找华为续命：国内尊界、海外玛莎

特斯拉监督版 FSD 官宣登陆中国

腾讯操作系统级AI助手马维斯正式上工：6个AI牛马24小时待命支持一句话关闭Windows广告

教育信息化30年：为什么设备越来越多，老师却越来越累？

1元底价挂牌家乐福中国，但苏宁易购要做的不只是减负

富士康遭入侵后续：超 30 份苹果服务器文档样本流出

华为首次公开宣布：MatePad Pro Max搭载Kirin T93 Pro芯片

华为举办鸿蒙办公新品技术沟通会：发布MatePad Pro Max及生态产品

主题：智谱