登录

强化学习


分类

领域

为了厘清概念,文章引用了强化学习领域的经典理论——部分可观测马尔可夫决策过程(POMDP)。
文章

智能体

二是强化学习智能体、机器人控制器、自动驾驶系统等计算机程序,它们将模拟器用作大规模训练场景,在虚拟环境中测试现实中危险、昂贵或不可能实施的场景。
文章

强化学习智能体、机器人控制器、自动驾驶车辆等计算机程序则把模拟器当作训练场,在其中大规模地与世界交互,测试那些在现实中要么危险、要么昂贵、要么根本不可能执行的场景。
文章

方法

在MATH-500数学推理测试中,以Qwen3-8B为基础模型,标准的思维链+强化学习方法(SFT+RL)平均每道题生成1671个token,准确率为92.6%。
文章

数据

没有自己的编码产品,就没有高质量的强化学习数据;
文章

强化学习

深挖背后的原因,主要还是模型大多使用了基于人类反馈的强化学习(RLHF)进行微调,正是「人类反馈」本身导致了这种现象。
文章

而技术上的解释,自然又回到了RLHF,基于人类反馈的强化学习
文章

效果

算法,在机器人操控及大语言/视觉动作模型(VLA)强化学习训练中,GIPO既显著缓解了数据短缺导致的策略滞后痛点,又有效改善了PPO硬截断引发的“利用率崩溃(UtilizationCollapse)”问题。
文章

其它

第二阶段:热启动强化学习(Warm-startedRL)
文章