登录

已读文章名词现象观点问题政要

小模型面临

效果

该方法通过在roll-out过程中注入高质量思维轨迹，并根据训练状态动态调整指导强度，有效缓解小模型面临的奖励稀疏问题。

文章