零人工代码,比英伟达Megatron快10%!面壁智能用AI造了一座「训练工厂」
Anthropic 用 AI 写编译器。OpenAI 用 AI 写应用。英伟达用 AI 写深度学习系统。
面壁智能用 AI 写了一个训练框架。 ForgeTrain 。
在英伟达 H100 芯片上, ForgeTrain 比英伟达自己的 Megatron 框架还要快 10%。在华为昇腾芯片上,相比昇腾自身的框架 MindSpeed 也有 10% 的加速。
全程零人工代码。已经跑通生产环境,训练出了 MiniCPM5-1B 文本模型,性能超过其他同尺寸模型。
「 百分百 AI 版 Megatron 」,而且比原版还快。
ForgeTrain 背后是面壁首创的编程范式 Forge Engineering 。给什么芯片、什么场景,就现场「锻造」一套专属软件。 ForgeTrain 是这个范式落地的第一个成果,解决的是训练框架这一环。
训练大模型有多烧钱,不用多说。
十万卡集群的成本开支接近顶级科技公司一年的现金流。北美电网新增容量已经被头部 AI 集群预订走了一大半。高质量文本数据接近耗尽,合成数据从可选变成了必选项。
模型能力要持续提升,算力投入就要加倍。
但国内 AI 公司面对的现实更残酷。高端芯片受限,单纯比拼 Scaling Law 的投入规模,难。
怎么理解这件事?有一个简单的公式。
大模型能力的进步速度 = 每代跃迁幅度 / 单代研发周期。
跃迁幅度受 Scaling Law 约束,工程端改变不了。唯一能被工程独立压缩的变量,就是单代研发周期。
这就是面壁智能「AI 制造 AI」的出发点。让 AI 接管大模型研发流程中的更多环节,把单代研发周期从 18 个月压缩到 6 个月,再压缩到 1 个月。
北美头部 AI 公司的应对方式分两种。一种是疯狂砸钱建算力集群。另一种是把 AI 塞进研发流程的每一道工序。
面壁选了后者。
训练大模型需要一个框架来调度几千张 GPU 怎么分工、怎么通信、怎么同步。分布式计算、内存管理、数据加载、梯度同步、容错恢复,全靠这个框架协调。代码量大,工程复杂度高。
举个例子。如果大模型是汽车,训练框架就是制造汽车的工厂。
英伟达的 Megatron 是目前最主流的开源训练框架之一。英伟达不光卖 GPU,还配备了一整套工厂管理系统。全世界的大模型团队都在用。
面壁智能让 AI 从零写了一个新的工厂管理系统。这就是 ForgeTrain ,完全由 AI 编写的生产级训练框架。
划重点,面壁已经用 ForgeTrain 在华为昇腾系列上训练出了 MiniCPM5-1B ,包含基模和后训练两个版本。
MiniCPM5-1B ,不只是「能用」。
1B 参数,在第三方大模型榜单 Artificial Analysis Intelligence Index(AA-Index)上超越了所有 2B 参数以下模型。
三个月前发布的 Qwen3.5-2B ,参数量是 MiniCPM5-1B 的两倍。但 MiniCPM5-1B 效果更好。
面壁把这个趋势总结为「 密度定律 」。大模型的智能密度正在以「约每 3.5 个月翻一番」的速度持续提升。
更小的模型,正在承载更高的智能密度。
ForgeTrain 训练出来的 MiniCPM5-1B ,就是这条定律的最新证据。
「AI 写大型系统软件」这件事,北美御三家都在做。但 ForgeTrain 是第一个达到生产级、性能还反超基线的训练框架。
今年 1 月,英伟达 NVLabs 发布了 VibeTensor。陈天奇、贾扬青等人主导。英伟达自己也让 AI 写了一个深度学习系统。但 VibeTensor 比 PyTorch 慢 1.7 到 6.2 倍。GitHub 首页写着,「本项目仅供智能体系统研究使用,请勿用于生产环境。」
今年 2 月,Anthropic 发布了 Claude's C Compiler。16 个 Claude 智能体协作,两周写了 10 万行 Rust 代码的 C 编译器。能编译 Linux 6.9 内核,跨 x86、ARM、RISC-V 多个架构启动。但官方声明,「未经正确性验证,不建议生产使用。」汇编器和链接器在最后一步回退用了 GCC。
同一个月,OpenAI 发布了 Harness Engineering。Codex 在 5 个月内生成了约 100 万行代码的内部工具产品,全程零手写代码。但定位是通用应用,不是 AI 工具链本身。
他们都在探索同一个方向。但目前都还停留在实验阶段。
能写出来,还能用于生产,性能还超过人类基线。在「AI 编写大型系统软件」上,面壁的 ForgeTrain 是独一份。
面壁把造出 ForgeTrain 的整套方法完全开源了。三个阶段。
第一阶段, 采集「标准答案」 。从 Megatron 采集关键数据,形成评测标准和测试规约(Harness)。相当于先拍一张标准照片,告诉 AI 正确答案长什么样。
第二阶段, 逐比特复现 。让 AI 生成的框架做到和 Megatron 二进制一致。同样的输入,每一个 bit 输出都一样。这一步是在确认 AI 真正理解了训练框架的每一个细节。目前 ForgeTrain 已经完成多机多卡版本。
第三阶段, 解除约束,放手优化 。确认 AI 理解正确后,不再要求一模一样,让 AI 自由发挥。最终速度超过 Megatron 10%。
先模仿,再超越。
面壁同时开源了制造 ForgeTrain 的 Agent Harness。据面壁团队介绍,8B 参数模型已经在内部完成了验证,接下来 MOE 架构也在排期中。从 1B 到 8B 再到更复杂的架构,底层 Harness 的复用性极高,扩展速度会越来越快。
关于「AI 制造 AI」,面壁智能提出了一套五级分类。
L1,AI 给建议,人执行所有操作。GitHub Copilot 就在这一级。
L2,AI 辅助研发,处理具体环节的单点编码。Cursor、Claude Code 在这里。
L3,AI 端到端产出下一代模型。算法维度,前特斯拉 AI 总监 Andrej Karpathy 今年 3 月开源的 AutoResearcher 在这一层,630 行代码,让 AI 自主运行实验、调试参数、优化模型,48 小时完成约 700 次实验,提升 11% nanoGPT 训练效率。基础设施/算力维度, ForgeTrain 在这里,属于 L3+。
L4,AI 递归自改进。不只是调模型,而是改写造模型的工具链本身,实现自我进化。
L5,AI 自主设定议程,开放式探索学习。目前还没有代表成果。
Karpathy 的 AutoResearcher 解决的是「用什么配方训练模型」,算法层面的 AI4AI。
面壁 ForgeTrain 解决的是「用什么工厂训练模型」,基础设施层面的 AI4AI。
两者互补。
OpenAI 2024 年也提出过一套从 AI 到 AGI(通用人工智能)的五个发展阶段。OpenAI 的 L4 叫 Innovator(自主创新),面壁的 L4 是递归自改进。两套分级对上眼了。
AI 编程正在快速演化。最早的 Vibe Coding,写几十行脚本,一眼读完。然后 Spec Coding,按规范写几百上千行代码。再到 Harness Engineering,AI 开始接管大型系统软件的编写。
但这三个阶段有一个共同点。代码仍然需要长期维护。有 main 分支,有发布节奏,有越来越厚的技术债。
面壁的 Forge Engineering 更进一步。
代码不再是「写一次用一辈子」,而是「按需打造的一次性快照」。同一份 Harness,在不同芯片、不同模型下,可以生成完全不同的多份实现。
过去大型软件工程有一个老问题。「通用框架什么都能做,但针对特定硬件的性能可能不是最优。」手写优化代码性能,但每换一代芯片就要重写。通用性和效率不可兼得。
Forge Engineering 给出的答案是,代码编写成本趋近于零后,两个都要。
比如,「iPhone 是一个很好的通用产品,因为有苹果公司在打造它。但未来生产效率变高以后,相当于每个人身边都坐着一个乔布斯,用一天时间帮你定制一部满足你所有需求的手机。」
Forge Engineering 想在软件层面做到这件事。
ForgeTrain 的意义不止于一个训练框架。
一旦「AI 研究 AI 的速度」超过了「人类研究 AI 的速度」,大模型的研发速度就从人力规模函数变成算力规模函数。这意味着 AGI 的实现速度有望进一步加快。
算力可以被封锁,但工程效率不能。谁先让 AI 承担大部分研发工作,谁就能在更小的算力预算下维持同等研发节奏。
我们之前就聊过,英伟达的真正护城河不是芯片本身,是围绕芯片建立的软件生态。CUDA 花了将近二十年,有上百万开发者参与。国产芯片硬件进步快,但软件生态一直是最大的短板。
如果 Forge Engineering 的范式成立,未来每出一代新芯片,软件适配不再依赖人力堆积。面壁的目标是把大模型训练各环节的软件都用 AI 重写一遍。
这对国产算力生态来说,是一个真正能落地的方案。
AI 写的训练框架,在英伟达芯片上比英伟达自己的框架快 10%。
这件事已经真真实实地发生了。
面壁智能把三阶段方法论和 Agent Harness 全部开源。其他团队可以用同一套方法,给其他芯片锻造训练框架。
ForgeTrain 开源地址:https://github.com/OpenBMB/ForgeTrain
AI 制造 AI,不再是一个概念。
(转自:AI信息Gap)