PEFT方法评测不能只看下游分：通用能力损失也该被量化

速读：不同PEFT方法在下游适配与通用能力保留之间，究竟表现如何？ PEFT方法评测不能只看下游分：通用能力损失也该被量化2026年06月13日14:04机器之心Pro以LoRA为代表的参数高效微调（Parameter-EfficientFine-Tuning，PEFT）已成为大模型适配与后训练的主流选择。

2026年06月13日 14:

以 LoRA 为代表的参数高效微调（Parameter-Efficient Fine-Tuning，PEFT）已成为大模型适配与后训练的主流选择。相比全量微调，PEFT 仅更新少量参数，训练开销更低，也更容易在不同任务间快速部署。

然而，在 PEFT 方法的评测中，目标任务性能仍然是最常被强调的指标；相比之下，微调过程中模型遗忘了什么，往往缺少系统评估。

一个方法在提升数学正确率的同时，是否会显著削弱模型的指令遵循、事实回忆或通用推理能力？不同 PEFT 方法在下游适配与通用能力保留之间，究竟表现如何？这正是 PEFT-Arena 试图深入的问题。

近期，来自香港中文大学、西湖大学、德国马普所等机构的研究者提出了 PEFT-Arena —— 一个从稳定性‑可塑性权衡（stability–plasticity trade-off）视角重新审视 PEFT 方法的评测基准与分析框架。该工作已在 ICLR 2026 相关 workshop 上进行了展示，并开源了完整代码。

其中第一作者黄洋逸是香港中文大学计算机系博士生，共同一作彭若天是西湖大学博士生，通信作者是香港中文大学计算机系助理教授刘威杨。

论文标题：PEFT-Arena: Understanding Parameter-Efficient Finetuning from a Stability-Plasticity Perspective

项目主页：https://spherelab.ai/PEFT-Arena

论文链接：https://arxiv.org/abs/2605.28819

代码链接：https://github.com/Sphere-AI-Lab/PEFT-Arena

只看下游准确率，为什么不够？

传统 PEFT 评测的核心问题通常是：微调后，下游任务准确率提高了多少？这当然重要 —— 数学微调理应提升数学能力，医学问答微调也理应提升医学表现。但大模型的应用需求远不止于单一任务本身的表现。预训练为其赋予了广泛能力，包括指令遵循、事实知识、阅读理解和通用推理。如果微调过程以牺牲这些能力为代价来换取目标分数，那么单一准确率指标就会掩盖这一点。

PEFT-Arena 将这一问题重新表述为经典的稳定性‑可塑性困境（stability–plasticity dilemma）：

可塑性（plasticity）：模型在目标领域学到了多少；

稳定性（stability）：模型保留了多少预训练通用能力。

由此，一个可靠的 PEFT 方法不应只看是否提升了目标任务分数，更应考察它是否以较低的通用能力损失实现了该提升。

为此，PEFT-Arena 设置了双轴评测：一轴衡量目标域适配，另一轴评估预训练通用能力的保留。项目选用 Qwen2.5-7B 和 Llama3.2-3B-Instruct，在数学与医学推理两个目标域上分别进行监督微调（SFT）与基于验证奖励的强化学习（RLVR）训练，并以 IFEval、Natural Questions（NQ）、BBH 等任务评估通用能力的保留情况。

把「学到了多少」与「忘掉了多少」放在同一张图里

在 PEFT-Arena 提供的二维评估图中，横轴代表通用能力（即稳定性），纵轴代表目标域性能（即可塑性）。理想方法自然位于右上角：既能提升目标任务表现，又能完好保留通用能力。

这张图直观地展示了，几乎所有方法都面临稳定性‑可塑性权衡，但不同方法各自落在的权衡点差异很大。全量微调通常能取得较强的目标域表现，代价则是通用能力的显著下降。LoRA 等低秩方法相对保守，但仍可能出现不可忽视的遗忘。PiSSA 在某些设置下表现得更为极端：目标域分数可能提升，但通用能力损失非常严重。VeRA 对通用能力的保持较为稳定，但目标域的提升较为局限。

相比之下，正交微调（Orthogonal Finetuning，OFT）往往落在更具竞争力的「目标‑保留前沿」上：它不一定总是拿到最高的目标分数，但在相近的目标收益下，能够保留更多的通用能力。

例如在 Qwen2.5-7B SFT 数学实验中，全量微调虽然大幅提升目标分数，通用分数却严重下滑；而 OFT 则在目标提升与通用保留之间取得了更均衡的结果。

另一个值得注意的现象来自 RLVR。相比 SFT，RLVR 在主要评估设置下通常表现出更弱的通用能力遗忘；在某些设置中，它甚至能在提升目标任务的同时保持或提高通用分数。

不过，作者也观察到，较长时间的 RLVR 训练在 high-k 采样评估下可能暴露出另一类退化：pass@1 仍然稳定，但 pass@64 等高采样指标会下降。这说明，RLVR 的训练动态也需要从路径层面进一步诊断，而不能只看最终 checkpoint 的单点结果。

换言之，PEFT-Arena 并不只是给 PEFT 方法排一个名次，而是试图将评测的核心问题从「谁的下游准确率更高」转变为：

哪种 PEFT 方法能以最小的预训练能力损失，获得足够的目标域适配？

从分数到机制：为什么有些方法更容易遗忘？

评测基准告诉我们「发生了什么」，但还无法解释「为什么」。PEFT-Arena 进一步从模型几何的角度进行了内部分析，主要包括两个视角：权重空间几何与激活空间几何。

权重空间：PEFT 更新作用在参数矩阵的哪些部分？

作者首先在权重空间中分析 PEFT 更新。具体做法是将预训练权重矩阵沿奇异向量基底分解，考察微调后有效权重相对于原始谱结构的偏移。分析涉及两项核心视图：

结构保留视图（retention profile）：衡量微调后权重在多大程度上保留了预训练的奇异结构；

更新能量视图（update-energy profile）：衡量微调更新主要集中在哪些预训练方向上。

这种分析有助于回答：不同 PEFT 的参数化方式，究竟是在平滑地调整预训练几何结构，还是在少数方向上制造出尖锐集中的扰动？例如，LoRA 等低秩方法倾向于产生集中的更新模式；PiSSA 与主奇异方向交互较强，可能带来更大的结构扰动；而 OFT 由于采用正交参数化，更倾向于保持权重谱的原始几何特征。

主题：PEFT-Arena|PEFT方法|可塑性