登录
更多
已读文章
名词
现象
观点
问题
政要
FP4训练
描述
FP4训练
是由MXFP4微缩放在敏感梯度路径上产生的结构性误差驱动的。
文章
分类
方案
值得注意的是,作者在论文中明确强调了一项重要限制:这套
FP4训练
方案(MLPerfC4数据集+Llama3.1-8B)的效果已经得到验证,但不能直接假设它能无缝迁移到所有模型、所有数据集和所有训练方法。
文章