PEFT方法评测不能只看下游分:通用能力损失也该被量化
以 LoRA 为代表的参数高效微调(Parameter-Efficient Fine-Tuning,PEFT)已成为大模型适配与后训练的主流选择。相比全量微调,PEFT 仅更新少量参数,训练开销更低,也更容易在不同任务间快速部署。
然而,在 PEFT 方法的评测中, 目标任务性能仍然是最常被强调的指标; 相比之下,微调过程中模型遗忘了什么,往往缺少系统评估。
一个方法在提升数学正确率的同时,是否会显著削弱模型的指令遵循、事实回忆或通用推理能力?不同 PEFT 方法在下游适配与通用能力保留之间,究竟表现如何?这正是 PEFT-Arena 试图深入的问题。
近期,来自香港中文大学、西湖大学、德国马普所等机构的研究者提出了 PEFT-Arena —— 一个从稳定性‑可塑性权衡(stability–plasticity trade-off)视角重新审视 PEFT 方法的评测基准与分析框架。该工作已在 ICLR 2026 相关 workshop 上进行了展示,并开源了完整代码。
其中 第一作者黄洋逸是香港中文大学计算机系博士生,共同一作彭若天是西湖大学博士生,通信作者是香港中文大学计算机系助理教授刘威杨。
论文标题:PEFT-Arena: Understanding Parameter-Efficient Finetuning from a Stability-Plasticity Perspective
项目主页:https://spherelab.ai/PEFT-Arena
论文链接:https://arxiv.org/abs/2605.28819
代码链接:https://github.com/Sphere-AI-Lab/PEFT-Arena
只看下游准确率,为什么不够?
传统 PEFT 评测的核心问题通常是:微调后,下游任务准确率提高了多少?这当然重要 —— 数学微调理应提升数学能力,医学问答微调也理应提升医学表现。但大模型的应用需求远不止于单一任务本身的表现。预训练为其赋予了广泛能力,包括指令遵循、事实知识、阅读理解和通用推理。如果微调过程以牺牲这些能力为代价来换取目标分数,那么单一准确率指标就会掩盖这一点。
PEFT-Arena 将这一问题重新表述为经典的 稳定性‑可塑性困境 (stability–plasticity dilemma):
可塑性(plasticity):模型在目标领域学到了多少;
稳定性(stability):模型保留了多少预训练通用能力。
由此,一个可靠的 PEFT 方法不应只看是否提升了目标任务分数,更应考察 它是否以较低的通用能力损失实现了该提升。
为此,PEFT-Arena 设置了双轴评测:一轴衡量目标域适配,另一轴评估预训练通用能力的保留。项目选用 Qwen2.5-7B 和 Llama3.2-3B-Instruct,在数学与医学推理两个目标域上分别进行监督微调(SFT)与基于验证奖励的强化学习(RLVR)训练,并以 IFEval、Natural Questions(NQ)、BBH 等任务评估通用能力的保留情况。
把「学到了多少」与「忘掉了多少」放在同一张图里
在 PEFT-Arena 提供的二维评估图中,横轴代表通用能力(即稳定性),纵轴代表目标域性能(即可塑性)。理想方法自然位于右上角:既能提升目标任务表现,又能完好保留通用能力。
这张图直观地展示了, 几乎所有方法都面临稳定性‑可塑性权衡,但不同方法各自落在的权衡点差异很大。 全量微调通常能取得较强的目标域表现,代价则是通用能力的显著下降。LoRA 等低秩方法相对保守,但仍可能出现不可忽视的遗忘。PiSSA 在某些设置下表现得更为极端:目标域分数可能提升,但通用能力损失非常严重。VeRA 对通用能力的保持较为稳定,但目标域的提升较为局限。
相比之下,正交微调(Orthogonal Finetuning,OFT)往往落在更具竞争力的「目标‑保留前沿」上:它不一定总是拿到最高的目标分数,但在相近的目标收益下,能够保留更多的通用能力。
例如在 Qwen2.5-7B SFT 数学实验中,全量微调虽然大幅提升目标分数,通用分数却严重下滑;而 OFT 则在目标提升与通用保留之间取得了更均衡的结果。
另一个值得注意的现象来自 RLVR。相比 SFT,RLVR 在主要评估设置下通常表现出更弱的通用能力遗忘;在某些设置中,它甚至能在提升目标任务的同时保持或提高通用分数。
不过,作者也观察到,较长时间的 RLVR 训练在 high-k 采样评估下可能暴露出另一类退化:pass@1 仍然稳定,但 pass@64 等高采样指标会下降。这说明,RLVR 的训练动态也需要从路径层面进一步诊断,而不能只看最终 checkpoint 的单点结果。
换言之,PEFT-Arena 并不只是给 PEFT 方法排一个名次,而是试图将评测的核心问题从「谁的下游准确率更高」转变为:
哪种 PEFT 方法能以最小的预训练能力损失,获得足够的目标域适配?
从分数到机制:为什么有些方法更容易遗忘?
评测基准告诉我们「发生了什么」,但还无法解释「为什么」。PEFT-Arena 进一步从模型几何的角度进行了内部分析,主要包括两个视角: 权重空间几何与激活空间几何。
权重空间:PEFT 更新作用在参数矩阵的哪些部分?
作者首先在权重空间中分析 PEFT 更新。具体做法是将预训练权重矩阵沿奇异向量基底分解,考察微调后有效权重相对于原始谱结构的偏移。分析涉及两项核心视图:
结构保留视图(retention profile): 衡量微调后权重在多大程度上保留了预训练的奇异结构;
更新能量视图(update-energy profile): 衡量微调更新主要集中在哪些预训练方向上。
这种分析有助于回答:不同 PEFT 的参数化方式,究竟是在平滑地调整预训练几何结构,还是在少数方向上制造出尖锐集中的扰动?例如,LoRA 等低秩方法倾向于产生集中的更新模式;PiSSA 与主奇异方向交互较强,可能带来更大的结构扰动;而 OFT 由于采用正交参数化,更倾向于保持权重谱的原始几何特征。
主题:PEFT-Arena|PEFT方法|可塑性