困难样本
分类
学习
实验设计围绕一个核心出发点展开:在多模态偏好数据中,大量样本属于简单偏好对,而传统DPO在训练过程中更容易拟合这类易于区分的样本,从而削弱了对困难样本的学习力度,导致模型在真实而复杂的应用场景中仍然容易产生幻觉。
文章
首先,从理论层面看,研究团队通过对训练动态、奖励变化轨迹以及样本难度分布的系统分析,揭示了一个此前在多模态偏好优化领域未被充分重视的问题:传统DPO虽然在形式上实现了偏好对的优化,但在训练过程中存在明显的难度偏置,模型更倾向于学习简单、差异明显的样本,而对语义复杂、区分细微、贴近真实应用情境的困难样本学习不足。
文章
效果
而在训练阶段,团队将难度评分引入DPO框架中的β参数,使该参数不再固定,而是随样本难度自适应变化,从而形成难度感知训练机制:困难样本被赋予更高的优化权重,而简单样本的过拟合趋势则受到抑制。
文章
通过对最简单与最困难样本奖励差距进行积分所得到的AUG指标,研究人员定量证明DA-DPO在整个训练过程中维持了更小的难易差异,这表明训练权重确实由简单样本向困难样本转移,最终转化为对细粒度幻觉的显著抑制以及综合能力的稳定保持。
文章