登录
更多
已读文章
名词
现象
观点
问题
政要
奖励模型引导模型
其它
首先,谷歌通过高质量合成数据与人工翻译数据进行监督微调,随后引入强化学习阶段,利用先进的
奖励模型引导模型
生成更加自然、贴合语境的译文。
文章