登录
更多
已读文章
名词
现象
观点
问题
政要
小模型面临
效果
该方法通过在roll-out过程中注入高质量思维轨迹,并根据训练状态动态调整指导强度,有效缓解
小模型面临
的奖励稀疏问题。
文章