登录
更多
已读文章
名词
现象
观点
问题
政要
奖励
分类
标准差
GRPO计算优势时会除以组内
奖励
标准差
文章
尺度
问题二:跨任务
奖励
尺度不一致。
文章
分布
不同任务的评估指标(EM、F1、ROUGE-L等)产生截然不同的
奖励
分布。
文章