登录

奖励


分类

标准差

GRPO计算优势时会除以组内奖励标准差
文章

尺度

问题二:跨任务奖励尺度不一致。
文章

分布

不同任务的评估指标(EM、F1、ROUGE-L等)产生截然不同的奖励分布。
文章