登录

华为升腾超节点支持DeepSeek V 4模型


速读:华为升腾超节点支持DeepSeekV4模型。 4月24日,华为云也宣布首发适配DeepSeek V4。
作者:周玲 来源:澎湃新闻 发布时间:2026/4/25 8:24:0

华为昇腾超节点支持DeepSeek V4模型

4月24日,DeepSeek V4-Pro和DeepSeek V4-Flash正式发布并开源,模型上下文处理长度由原有的128K显著扩展至1M,实现近10倍的容量提升。

随后,华为计算发布信息称,昇腾超节点产品全面支持DeepSeek V4。本次通过双方芯模技术紧密协同,实现昇腾超节点全系列产品支持DeepSeek V4系列模型。

其中,昇腾950通过融合kernel和多流并行技术降低Attention计算和访存开销,大幅提升推理性能,结合多种量化算法,实现了高吞吐、低时延的DeepSeek V4模型推理部署。昇腾A3超节点系列产品也全面适配,同时为便于用户快速微调,提供了基于昇腾A3超节点的训练参考实现。

华为表示,基于DeepSeek V4-Pro模型,在8K输入场景,昇腾950超节点可实现TPOT约20ms时单卡Decode吞吐4700TPS。DeepSeek V4-Flash模型,8K长序列输入场景下可实现TPOT约10ms时单卡Decode吞吐1600TPS。

华为表示,双方还联合定义昇腾超节点,进一步大幅提升延迟和吞吐,同时实现低成本,且兼顾万卡级别的Scale out集群规模。解决了长序列4K到1M序列长度范围内都有低延迟和高吞吐。此架构支持基于NAND SSU的超低成本、超大容量、高性能KV Cache有效支撑支持长序列应用。

此外,基于昇腾A3 64卡超节点结合大EP模式部署,DeepSeek V4-Flash模型,8K/1K输入输出场景,基于vLLM推理引擎可实现2000+TPS的单卡Decode吞吐,单卡吞吐持续提升。针对DeepSeek V4-Pro模型,昇腾A3同步支持推理部署,性能持续优化中。

华为称,昇腾A2、A3及950全系列产品适配DeepSeek V4-Flash、DeepSeek V4-Pro。华为并且强调,昇腾始终致力于为世界提供新选择,以极致的算力与开放的生态,加速AI产业的繁荣。

4月24日,华为云也宣布首发适配DeepSeek V4。当前,华为云MaaS模型即服务平台已为开发者提供免部署、一键调用DeepSeek-V4 -Flash API的Tokens服务。

华为云表示,在此次新模型适配过程中,华为云在系统层、算子层和集群层的关键能力上协同,分别从调度效率、计算效率和数据流转效率三个维度保障新模型快速适配与高性能落地。据悉,金山办公、360等企业已通过华为云接入DeepSeek新模型。

在DeepSeek V4发布后,寒武纪也在第一时间宣布,基于vLLM推理框架完成了对此次DeepSeek-V4-flash和DeepSeek-V4-Pro两个版本的Day 0适配,适配代码已开源到GitHub社区。

去年DeepSeek-V3.2的发布,寒武纪也是第一时间发布适配的国产芯片。寒武纪表示,此前寒武纪对DeepSeek系列模型开展深入的软硬件协同性能优化,并达到了业界领先的算力利用率水平。

(原标题: 华为昇腾超节点支持DeepSeek V4模型,寒武纪也适配完成 )

主题:DeepSeekV4|DeepSeekV4-Pro|华为云