登录

奖励模型引导模型


其它

首先,谷歌通过高质量合成数据与人工翻译数据进行监督微调,随后引入强化学习阶段,利用先进的奖励模型引导模型生成更加自然、贴合语境的译文。
文章