登录

FP4训练


描述

FP4训练是由MXFP4微缩放在敏感梯度路径上产生的结构性误差驱动的。
文章

分类

方案

值得注意的是,作者在论文中明确强调了一项重要限制:这套FP4训练方案(MLPerfC4数据集+Llama3.1-8B)的效果已经得到验证,但不能直接假设它能无缝迁移到所有模型、所有数据集和所有训练方法。
文章