登录

从「婴儿期」到「青年期」:四位开发者眼中的中国算力生态


速读:他们的身份各异——有大模型创业公司的联合创始人,有银行核心团队的技术专家,也有高校的研究者——但他们都把升腾和鲲鹏当作真实生产环境的基础设施长期使用。 5月23日,鲲鹏升腾开发者大会2026的明星开发者团队圆桌上,主持人、中科院计算所学者、老石谈芯主理人石侃谈道:“硬件是基石,生态是灵魂。
2026年05月27日 21:3

这四位开发者的讲述,

是观察中国算力生态成熟度的一组真实样本。

DeepSeek之后,中国AI产业最深刻的一个变化,可能是大家终于不再相信 “ 暴力堆算力 ” 了。

当 DeepSeek用一系列极致的低精度优化、长上下文压缩、算子工程把模型成本压到行业平均的十分之一以下,它实际上证明了一件事:AI下半场的胜负手,在算力 底座 的整体效率,而不在某一颗芯片的峰值参数。

“系统工程”并非孤军突围的无奈之举,它几乎是全球性的效率共识 ——海外的Anthropic、xAI、Mistral也都在沿着类似的方向重写自己的工程栈。

但对中国产业而言,这个范式转移的意义更复杂一些。它一方面意味着中国厂商不必再在制程和算力密度上跟英伟达打一场没胜算的硬仗,另一方面也意味着,如果软件生态跟不上,再多的卡也只是堆在机房里的 “ 沉默资产 ” 。

这也是为什么近两年中国算力的竞争焦点,迅速从芯片切换到了生态。 

5月23日,鲲鹏昇腾开发者大会2026的明星开发者团队圆桌上,主持人、中科院计算所学者、老石谈芯主理人石侃谈道: “ 硬件是基石,生态是灵魂。再强的芯片,如果没有好用的软件生态,只是一种冷冰冰的硬件 。 ”

主持人、中科院计算所学者、老石谈芯主理人石侃

这正是当下中国 AI计算产业生态最需要回答的问题——生态够不够好用?开发者愿不愿意来?用了能不能留下?

在 KADC现场,四位来自AI大模型、金融、高性能计算领域的开发者,用他们的实战经验回应了这个问题。他们的身份各异——有大模型创业公司的联合创始人,有银行核心团队的技术专家,也有高校的研究者——但他们都把昇腾和鲲鹏当作真实生产环境的基础设施长期使用。

这四位开发者的讲述,是观察中国算力生态成熟度的一组真实样本。

AIGCode 陈秋武: 65%的

MoE MFU,技术极客如何吃透昇腾

2024年初,AIGCode刚成立,市场上买不到英伟达卡,作为创业小公司,团队只能从昇腾开始。用了一段时间之后他发现“其实还好” ——这种从被动接受到逐步认可的过渡,几乎是国产芯片在那一波AI创业公司里普遍的破冰路径。

AIGCode做的是Vibe Coding类应用——用一句自然语言提示词就能生成前端、后端、数据库的完整系统,15分钟内交付一整套应用。

但和大多数 Vibe Coding公司不同,AIGCode坚持自研基础大模型。这是因为,在陈秋武看来, 应用端的能力上限来自基础模型, “ AGI能力的瓶颈并不是后训练或Agent,而是来源于基础模型 ” 。

在和昇腾的合作中, AIGCode团队把 Mo E MFU(模型算力利用率)做到了 “ 65% ” 。

MFU(Model FLOPs Utilization)反映的是集群在实际训练中跑出了多少标称算力,是衡量大模型训练效率的核心指标。 而 MoE ( Mixure of Expert s)混合专家则是当前大模型的主流模型架构。

这一指标和集群规模、任务规模强相关 ——单 机或密集 场景下通信开销 很低 , MFU做到 很 高 并 不难; 如 Google密集大模型的 PaLM  540B TPU集群上达到46 .2 % ;但当 主流混合专家大模型时,对应的激活专家约二十分之一,冷热不均,专家并行效率低下, 任务被切分到成百上千张卡上协同运行时,通信、同步、调度的开销会大幅累积, MFU的提升越发困难。

MoE M FU越高, 也 意味着算力资产被利用得越充分,训练效率越高,模型出结果的速度也就越快。

能在集群规模下把 MFU推到这一水平,意味着AIGCode 可以调用昇腾非常底层的调优能力。 用陈秋武的话来说,相当于 “ 一张昇腾卡当两张卡用 ” 。(需要说明的是, 65%是特定客户在特定算法、模型、集群规模等条件下达成的成果。)

而 把 MFU推 到极致 ,靠的是一整套体系化能力。

第一层是通信与计算的协同调度,核心是把芯片的等待时间压到最小。第二层更硬核,把 attention里占大头的MHA与 细碎小块 GDN做并行掩盖,再把 in_proj、 激活函数 等小算子做融合 , 与 DeepSeek V4提到的Mega Kernel思路 类似 , 最后结合 QKV 重组零拷贝 。 “ 大的块扔到瓶子里,小的块再填满 ” ——这是一个典型的需要算法团队和基建团队同时具备能力的工作。

陈秋武 还 认为, 单卡差距可以靠 超节点 集群体系化优势补齐。

放在更大的产业语境里,这句话其实指向了国产算力的一条隐性突围路径 ——既然单卡制程暂时追不上,那就用系统级架构(超节点+高速互联+协同调度)在另一个维度上构建优势。

陈秋武如此谈到昇腾 CANN生态变化, “ 2024年初我们去做训练的时候,基本上算是‘荒漠’,很多东西都没有。大概到了去年,整个CANN的生态覆盖率到了80%-90%。8个月就把生态完成到这个程度,我觉得是非常惊讶的。 ”

陈秋武参加华为的技术闭门会就参加了六七次。从写第一版预训练代码开始,到联合开发 PTO和CANN的预训练部分。这种深度共建的关系,某种程度上也定义了AIGCode这类技术型团队与国产算力生态的相处方式——既是用户,也是合作者。

某头部股份制银行郑俊:

把 AI放进金融核心生产系统

如果说 AIGCode代表的是技术极客对极致性能的追求,那么金融行业代表的是另一个维度的验证—— 产业核心生产场景。

某头部股份制银行架构办大模型训推核心专家郑俊在圆桌上谈到的,是一个比 “ AI写文案 ” 重得多的应用场景。

该行 AI团队负责基于昇腾软硬件生态,构建大模型训练与推理基础设施,并把这套能力推进到了智能风控的核心链路里——用大模型与小模型的混合架构,叠加增强人脸识别技术,实时拦截境外诈骗等高风险交易。

可以说, AI已经直接介入 这家银行的 资金流转和风险决策,成为业务运转的关键一环。

这种场景对算力底座的要求,和互联网应用完全不在一个量级上。对于金融级生产环境来说, AI从辅助场景进入核心生产流程要满足四大刚性要求:

第一条是极致低延迟。 该行的服务级别目标( SLO)把首Token响应锁定在500毫秒左右,后续Token延迟控制在50毫秒左右。

这种延迟约束放在金融场景里是底线 ——一次跨境交易的风险判断、一次反欺诈拦截,必须在用户感知不到的时间窗里完成。为了把延迟压缩到业务可接受的范围,该行和昇腾团队联合做了底层调度和算子层面的优化。

第二条是超高通量并发 。 该行的大模型平台日均处理 260亿Token,背后需要数千张算力卡同时跑起来。昇腾的单卡性能和集群通信效率提供了基础能力,但要把这套系统真正跑稳,还需要在系统调优和架构设计上做大量工程投入。

第三条是银行级可用性。 99.999%的系统可用性意味着全年故障不超过1分钟,这是金融核心系统的硬约束。这一指标不是单靠硬件就能给出保证的——它是该行和昇腾在硬件稳定性、软件架构上共同打磨出来的结果。 

第四条是高利用率下的故障隔离。 降本增效的压力要求把硬件利用率持续拉高,但金融场景的另一面是不能因为单点故障导致业务断流。该行和昇腾一起做了隔离机制设计,让高利用率和高安全能够同时成立。

要把这四条指标同时压下来,靠的是一整套软硬协同的工程能力。

郑俊还谈道, “ 和昇腾一起搞开源之后,开源的代码我们随时可以去看它,小的问题随时就可以修 。 ” 而任何模型商用前都要经过 48小时以上的长压测试。

值得一提的是,该行在适配过程中对昇腾社区已经实现了反向输出。

该行秉持 “ 源于开源、回馈开源 ” 原则,在昇腾生态适配与算子开发中沉淀的大量优化成果,主动贡献给了社区 ——截至目前,已经累计向vLLM-Ascend贡献了34个特性,让其他昇腾客户直接受益、无需重复踩坑。

一家股份制银行的 AI团队主动做开源贡献,在过去几乎是很少见的。回馈社区也代表着该行选择昇腾已经超出了合规层面的考虑,更像是把它当作了长期基础设施去投入,郑俊表示 , “ 昇腾让我们看到国内的算力平台同样优秀,可以成为业务首选 。 ”

清华大学王一鸣:

让科研者把时间花在科研本身

清华大学 HPCA团队助理研究员王一鸣团队 和其他高校、科研院所的联合研究 工作,让鲲鹏走进了一个更经典的高性能计算场景 —— 地球系统建模。

通过把 AI与传统数值模拟结合起来,团队尝试在全球天气与气候模拟中引入AI增强的物理参数化、混合精度计算和大规模并行优化 , 实现 公里级 分辨率的全球气象建模 ——这是一个 高性能计算 与 AI融合的工程。

传统大气模拟里有个长期 需要攻克 的问题 ——计算过程中有一部分靠严格的物理公式推导,另一部分则要靠经验公式 “ 估算 ” ,而这部分估算正是模拟结果 不确定性 的主要来源。

王一鸣团队用 AI模型替换了传统的经验估算方案,叠加 可扩展性优化和 混合精度 优化等手段 来提升效率,把全球大气模拟的分辨率推进到了公里级,实现了 “计算 一天 就能完成一年以上模式时间的天气 -气候演化 ” 的性能突破。 在海洋这种动力学相对稳定的场景里,一天甚至可以模拟 3年的演变。

这套由清华大学团队联合其他高校和科研院所做的全球地球系统模式软件系统 , 已 成功投稿到 2026年戈登贝尔气候建模特奖。

事实上, 地球系统建模对算力底座的要求 , 有两个看似朴实却极其关键的指标 ——稳和准。

稳的难度,在于大气模拟是连续积分场景。 一个完整的模拟结果需要数天甚至 数百年等 更长时间的连续计算,中间一旦断掉,断点恢复的成本极高,往往意味着前面 一段时间 的算力白跑。

这种场景对硬件平台的稳定性要求是底层级的 ——任何一次崩溃,都可能让一个科研项目损失数天的时间。团队迁移到鲲鹏平台之后,集群在大规模长时间作业中的稳定性显著改善,断点续跑机制也更友好。

准的难度,在于科学计算对 精度 误差的零容忍。 一个气象模拟结果背后是数亿轮计算过程,每一步的微小误差累积数亿次后,最终结果可能严重失真。这要求底层平台从编译器到数学库到并行库,每一个环节都得在精度上经得起推敲。

鲲鹏在这一层提供了面向主流科学计算语言和气象软件生态的工具链支持 , 包括编译器、数学库、并行库和调优工具,让 清华大学 团队能在一个体系完整、响应高效的平台上快速调试参数、验证模型 , 减少底层适配对科研节奏的干扰, 从而 更快地逼近 “ 准 ” 的目标。

但鲲鹏带给清华团队的,不止是稳和准本身。

王一鸣在圆桌上提到一个细节 ——团队和鲲鹏的合作,已经把硬件特性和工程优化纳入了科学问题设计的早期阶段。过去高性能计算的典型流程是先把科学问题解决了,再回过头来做性能优化,科学和工程是前后接力的两段。

而现在,团队从代码设计阶段就把鲲鹏的 NUMA架构、并行方式纳入考量,让科学研发和工程优化从前后接力变成了并行推进。这是一个容易被忽略但意义不小的变化。 它意味着开发者对底层平台的信任度,已经高到足以让它进入科学问题设计的早期决策。

这背后必须靠真实的开发体验去积累。在王一鸣看来,鲲鹏对气象软件库的支持很好,基本上把 气象模型 放到鲲鹏里面,只需要 load几个库,基本上就可以跑 起来 ;架构适配性也强,气象软件不需要太改代码就可以跑一个初版。遇到问题,鲲鹏社区 还 有大量已经沉淀好的解决方案。

一个 长期 被国产算力生态忽略的维度是 , 开发体验是否友好。性能数据是少数极客追求的事,开发顺畅度才是大多数科研工作者每天面对的真实问题。王一鸣自己用一句话总结了团队的感受: “ 鲲鹏让科研者的精力回到科研本身,不用在硬件适配上反复踩坑。 ”

正是这种对底层工作的解放,让科研人员能够把精力聚焦在算法突破和科学问题的本质上,回到科研创新本来该有的样子。

更宏观来看, 气候变化、极端天气、粮食安全、水资源管理,这些都依赖于精准的气象建模能力。一个公里级精度、性能足够支撑长时序推演的地球系统模拟器,是中国应对气候挑战、保障国计民生的科学基础设施之一。

当中国算力底座开始能稳定承接气候建模、 生命科学、物质科学等 这类基础科研,意味着它的能力边界正在从 “ 产业应用 ” 扩展到 “ 科学发现的基础工具 ”。 在 AI4S这个关键方向上 ,鲲鹏也已 经能打通从硬件到工具链再到科研产出的完整链路 。

主题:生态|一组真实样本