登录

小模型面临


效果

该方法通过在roll-out过程中注入高质量思维轨迹,并根据训练状态动态调整指导强度,有效缓解小模型面临的奖励稀疏问题。
文章