登录

奖励模型引导模型

其它

首先，谷歌通过高质量合成数据与人工翻译数据进行监督微调，随后引入强化学习阶段，利用先进的奖励模型引导模型生成更加自然、贴合语境的译文。

文章