瞄准AI、图形顶端战场:摩尔线程上演国产GPU硬核实力路演
编辑|泽南、+0
这就是摩尔线程最新 AI 计算卡 S5000,单卡跑满血 DeepSeek 大模型的成绩。

每秒 1024 token 的流畅解码,超过 4000 token 的峰值吞吐,只需要搭载在通用服务器上。这个成绩不仅刷新了国产 GPU 的推理性能记录,更以稳定的低延迟,验证了其 AI 算力的高效与可用性,成为了国产算力的一个里程碑。
上周六,国产 GPU 第一股摩尔线程,首次完整揭幕了其新一代统一计算架构 MUSA 的路线图。从芯片设计、AI 基础设施、基础软件到生态,MUSA 架构旨在为各种形态的 AI 与图形计算需求,提供全方位的支持。
这是摩尔线程的首届 MUSA 开发者大会,也是其上市后技术体系的首次集中亮相。在长达两个半小时的 Keynote 中,摩尔线程创始人、董事长兼 CEO 张建中系统总结了过去五年的技术沉淀与研究成果,密集发布了一系列新产品,并对未来的发展路径进行了展望。
整场发布会,从底层架构到具体芯片,从整机到万卡集群,再到对具身智能、科学智能(AI4S)与量子计算等前沿领域的布局 —— 信息量巨大,新产品应接不暇,看起来已经有点 GTC 大会的样子了。
技术之根
MUSA 架构全面进化
在这其中,最先被介绍的是其技术底座:MUSA,元计算统一系统架构。
MUSA(Meta-computing Unified System Architecture)是摩尔线程自主研发的、覆盖从芯片架构、指令集、编程模型到软件运行库及驱动程序框架等的全栈技术体系。它是贯穿摩尔线程全栈产品体系的技术基石,相当于从软件到硬件所有产品的设计蓝图。
张建中将 MUSA 架构分为几个层级进行了介绍,其最底层是 全功能 GPU 架构 ,其上为 硬件产品与系统 (从单卡到大规模集群),最上层为 全套软件栈 与 开发者生态 。
在硬件层,本次发布的全功能 GPU 架构「花港」,标志着国产 GPU 在核心技术上的突破。

据介绍,「花港」在处理器架构、指令集层面进行了重新设计,旨在实现算力密度与能效比的飞跃。数据显示,相比上代, 花港架构在同芯片面积下的算力密度提升了 50%,能效提升了 10 倍 。
作为全功能 GPU 的载体,花港在原有 MTFP8 的技术下,新增 MTFP6/MTFP4 及混合低精度支持,支持从 FP4 到 FP64 的 全精度端到端计算加速 ,覆盖了从低精度 AI 推理到高精度科学计算的广泛场景。 MUSA 支持国际主流 GPU 生态 ,同时还支持国际通用的 CPU 系统,也支持所有国产主流 CPU、操作系统和国内开发环境。在安全层面,该架构采用了全硬件设计的安全保护机制,从底层筑牢了算力设施的安全防线,实现自主可控。
异步编程 与 超大规模互联 是新架构突出的特点。「花港」带来了新一代的异步编程模型加速技术,全面优化异步编程模型、任务与资源调度机制,提升并行执行效率,这一能力能够大幅提升大模型训练的效率。与此同时,其自研 MTLink 互联技术 实现了速度高达 1314GB/s 的片间互联,支持 十万卡以上 规模的智能集群扩展,为未来「AI 工厂」的建设奠定了基础。
图形处理方面,新架构集成了 AI 生成式渲染架构(AGR) ,增强的硬件光线追踪加速引擎(光线追踪性能比上一代提升 50 倍),并完整支持了 DirectX 12 Ultimate, 这是国产 GPU 首次实现对行业顶级图形标准的完整支持 。
与硬件架构同步升级的,是基础软件层 MUSA 5.0 软件栈。

张建中表示,MUSA 在 AI 框架上适配 PyTorch、Paddle 并新增了对 Jax、TensorFlow 的框架支持;训练套件在分布式训练框架 Megatron、DeepSpeed 的基础上,新增了强化学习训练框架 MT VeRL;推理套件在 MTT 推理引擎和深度学习模型 TensorX 的基础上,新增了对 SGLang、VLLM、Ollama 等推理框架的适配。
摩尔线程特别强调了在计算与通讯效率上的突破:其核心计算库在 GEMM(通用矩阵乘法)上的效率据称超过 98%,通讯效率达到 97%,这极大地降低了开发者在国产硬件上移植和优化应用的成本。
为了降低开发门槛,加速生态建设,摩尔线程计划逐步开源一系列高性能算子库。与此同时,摩尔线程准备推出四大基础库:
MTX—— 兼容跨带 GPU 硬件指令架构、中间语言开发者可以更细力度的调度和优化 GPU 任务;
muLang—— 面向全功能 GPU 全场景的编程语言渲染 + AI 场景统一语言,易于编程;
MUSA-Q—— 量子计算 GPU 融合框架,可以加速量子计算模拟仿真;
muLitho——MUSA 光刻计算加速库,可用于加速 OPC 光刻计算。
这些工具计划在明年陆续提供给开发者们使用。
通过 MUSA 基础架构的升级,摩尔线程可以实现芯片性能指数级的提升,与此同时也大幅降低了基于国产芯片的开发门槛。
下一代芯片
「华山」与「庐山」
有了新架构,下个问题就是:即将量产的产品是什么?
基于「花港」架构,摩尔线程公布了未来两款芯片的路线图,分别对应 AI 计算与专业图形渲染两大主战场。
在 AI 计算领域,新一代芯片「华山」被定位为对标国际顶尖水平的 AI 训推一体芯片。 张建中在演讲中透露,「华山」在浮点计算能力上处于 NVIDIA Hopper 与 Blackwell 芯片产品之间。