智谱发布Infra新成果,同等硬件投入下算力多出15%
速读:5月21日消息,智谱今日宣布落地部署了一项直接影响大模型推理效率的架构创新ZCube。
5月21日消息,智谱今日宣布落地部署了一项直接影响大模型推理效率的架构创新ZCube:在线上GLM-5.1 coding场景中,在保持GPU算力、软件栈与应用不变的前提下,ZCube节省了33%交换机与光模块成本,同时将GPU平均推理吞吐提升了15%,并将TTFT P99降低了40.6%。
这意味着,同样的硬件投入下,智谱GLM大模型现在每秒能多响应15%的API请求。
关键词 :
硬件 gpu 推理



新浪科技公众号
“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

“不好看就退票”服务,能救电影院吗?
微信封禁自家“兄弟”红包,打的什么牌?
华住,比携程还会捞金?
苏州一小学网购45把雨伞用完退回还全损引热议 家委会致歉补款:商家发声
对标百万级燃油GT 雷军坦言YU7 GT定价"会有点小贵"
巨亏千亿 销量暴跌87%!百年豪车换标找华为续命:国内尊界、海外玛莎
特斯拉监督版 FSD 官宣登陆中国
腾讯操作系统级AI助手马维斯正式上工:6个AI牛马24小时待命 支持一句话关闭Windows广告
教育信息化30年:为什么设备越来越多,老师却越来越累?
1元底价挂牌家乐福中国,但苏宁易购要做的不只是减负
富士康遭入侵后续:超 30 份苹果服务器文档样本流出
华为首次公开宣布:MatePad Pro Max搭载Kirin T93 Pro芯片
华为举办鸿蒙办公新品技术沟通会:发布MatePad Pro Max及生态产品
主题:智谱