通用能力
分类
遗忘
相比SFT,RLVR在主要评估设置下通常表现出更弱的通用能力遗忘;
文章
通用能力
为此,PEFT-Arena设置了双轴评测:一轴衡量目标域适配,另一轴评估预训练通用能力的保留。
文章
稳定性(stability):模型保留了多少预训练通用能力。
文章
保留
不同PEFT方法在下游适配与通用能力保留之间,究竟表现如何?
文章
项目选用Qwen2.5-7B和Llama3.2-3B-Instruct,在数学与医学推理两个目标域上分别进行监督微调(SFT)与基于验证奖励的强化学习(RLVR)训练,并以IFEval、NaturalQuestions(NQ)、BBH等任务评估通用能力的保留情况。
文章