登录

梯度


分类

信号

图1:GIPO高斯信任权重与对数空间对称性相比于PPO的阶跃式截断,GIPO(橙线)展现了平滑的钟形曲线,使每个样本仍然能够贡献微小但有效的梯度信号。
文章

这“软阻尼”机制允许那些处于长尾区域的陈旧样本依然能贡献较低方差的梯度信号,从而有效缓解了“利用率崩溃”,让每一条昂贵的采样轨迹都能参与到策略的迭代中。
文章

效果

这“软阻尼”机制允许那些处于长尾区域的陈旧样本依然能贡献较低方差的梯度信号,从而有效缓解了“利用率崩溃”,让每一条昂贵的采样轨迹都能参与到策略的迭代中。
文章

在边界外,增加0.1可能导致梯度从1骤降至0,这种不连续性增加了训练不稳定性。
文章