登录
更多
已读文章
名词
现象
观点
问题
政要
蒸馏
分类
效果
在常规认知中,Teacher模型的分数越高,
蒸馏
效果应该越好。
文章
结果发现,由于学生也是Base模型,它与经过GRPO强化的BaseTeacher的thinkingpattern更近(初始OverlapRatio更高),最终的
蒸馏
效果取得了显著提升。
文章