登录

蒸馏


分类

效果

在常规认知中,Teacher模型的分数越高,蒸馏效果应该越好。
文章

结果发现,由于学生也是Base模型,它与经过GRPO强化的BaseTeacher的thinkingpattern更近(初始OverlapRatio更高),最终的蒸馏效果取得了显著提升。
文章