400 tokens/s刷新全球纪录!智谱联合TileRT推出GLM-5.1高速版API
智谱今日正式面向部分企业客户推出 GLM-5.1高速版API(GLM-5.1-highspeed) 。该模型输出速度达到惊人的 400tokens/s ,成功刷新当前全球大模型厂商 API 的速度上限。
打破了行业过去“高性能模型必然带来高延迟”或“高速模型只能是轻量级模型”的惯例,GLM-5.1高速版 首次 在国产大模型中将 旗舰级模型能力与 极致 低延迟 同时带入生产环境,用户无需再为响应速度而牺牲模型质量。

颠覆传统体验,直击速度敏感场景
在长程任务和复杂生产环境中,速度的提升带来了产品形态的质变:
AI 编程(Coding Agent) :在完整保留 GLM-5.1强大能力的基础上,新模型实现“即问即答”。模型能一边理解工程上下文,一边持续生成代码与修改方案。在需要数十轮调用的重构项目中,彻底消除了累计数分钟的空等。
实时动态建模 :在3D 地图实测中,玩家控制角色移动并输入文字,模型能够瞬时完成建模并实时改变场景。
Agent Swarm 并行调度 :在长程任务中,模型可在30秒内完成复杂网页处理,并能瞬间调度50个不同人格并行回答,展现出新型操作系统的雏形。
核心技术揭秘:TileRT 高性能推理引擎
400TPS 的稳定生产级能力,得益于 智谱 GLM 团队 与 TileRT 团队 联合进行的系统级优化:
推理引擎层(TileRT 编译期 AOT 静态编排) :
传统主流框架以算子(operator/kernel)作为基本调度单元,在单 token、小 batch 场景下会放大调度、访存与同步开销。TileRT 彻底抛弃了 Runtime 层的动态调度,在编译期(AOT)将整个计算图静态编排为一个常驻 GPU 的 persistent Engine Kernel 。在单卡内,计算、异步 IO 与通信被拆解为 Tile 级微任务,整个推理只 Launch 一次 Kernel,中间结果通过寄存器、Shared Memory 和 L2Cache 直传,不再写回全局内存。
调度系统层 :
通过动态批处理、请求合并和 KV 缓存调度优化,显著降低了高并发场景下的尾延迟。
基础设施层 :
在多卡尺度上,TileRT 将 SM 内部的 Warp Specialization 思路扩展到整张8卡 NVL 拓扑,不同 GPU rank 依据计算密度与数据依赖被特化为不同 worker,配合网络链路与负载均衡协同优化,确保高性能的常驻稳定性。
开放计划
GLM-5.1高速版适用于对响应延迟要求 极高 的 AI 编程、实时交互、商业决策以及实时语音等场景。目前该服务已正式上线 智谱 MaaS 平台并面向部分企业客户开放 。智谱官方表示,未来将持续推进推理引擎的工程优化,进一步扩大高速模型的服务能力。
主题:模型|速度|GLM-5.1高速版