1100多个模型殊途同归,指向一个「通用子空间」,柏拉图又赢一回?
模型架构的重要性可能远超我们之前的认知。
最近,约翰斯・霍普金斯大学的一项研究发现: 1100 多个不同的神经网络,即使在完全不同的数据集上训练、用不同的初始化和超参数,最终学到的权重都会收敛到一个共享的低维子空间。
这似乎是说明:存在一个「先验的」数学结构,所有神经网络都在逼近它。训练不是在「创造」什么,而是在「发现」一个早已存在的几何形式。换句话说,神经网络「想学的东西」似乎高度一致,架构决定了它能学什么,比数据影响更大。

这一发现有助于解释很多「神秘」现象,比如为什么过参数化的模型(参数远多于训练样本)还能泛化?为什么不同初始化最终学到相似的表示?为什么 LoRA、权重共享这些技术能 work?如果神经网络确实在共享子空间内学习,这将为隐式正则化、可迁移性以及稀疏训练方法的有效性提供支持性解释,同时也为诸如高效合并、新的优化技术、更快更高效的学习和推理等应用开辟道路。

论文标题:THE UNIVERSAL WEIGHT SUBSPACE HYPOTHESIS
论文链接:https://www.arxiv.org/pdf/2512.05117
这篇论文在 Alphaxiv、X 等平台上吸引了很多关注,一度攀升到 Alphaxiv 榜一的位置。

有人说,柏拉图又赢了一回。(注:柏拉图的理念论认为:我们看到的具体事物(桌子、马、圆形)都只是「理念」(Forms/Ideas)的不完美投影。真正的、完美的圆存在于一个抽象的理念世界,现实中的圆只是对它的模仿。其核心主张是:抽象结构先于具体实例。)

也有人从中读出了一些令人担忧的信号:如果所有模型都收敛到同一个子空间,那意味着当前架构存在内在的天花板,再多的数据和算力也只是在同一个「盆地」里打转。

论文概览
在具体研究中,作者首先聚焦于 LoRA 适配器,因其易于训练且能大量收集,在 Mistral-7B 模型的约 500 个适配器中观察到了通用子空间的涌现。随后,研究扩展到完整权重空间,从约 500 个 Vision Transformer 和 50 个 LLaMA3-8B 模型中提取出相似的低秩通用子空间,这些模型各自使用不同数据集和初始化方式训练。

此前已有多条线索暗示这一现象:神经正切核理论表明,在无限宽度极限下,网络训练动态由一个与具体任务基本无关的核函数主导;机制可解释性研究在视觉网络的特定层中发现了反复出现的电路模式;彩票假说和模式连通性也指向可复用的低维结构;早在 2012 年就有人观察到,卷积网络第一层在各种视觉任务中都会学到类 Gabor 滤波器。但这些工作要么聚焦于表示层面,要么未涉及不同模型间参数性质的收敛。
这项研究的独特之处在于: 首次在权重层面提供了具体证据和明确通用假设,为深度神经网络参数空间中 「通用性」的存在提供了最为严谨的实证证据。
尽管这种通用性的根本成因仍有待探索,但即便是初步理解也具有深远意义。共享子空间有望实现:大规模模型压缩(只需存储子空间系数而非完整权重)、在已学习子空间内快速适应新任务、对泛化边界和优化景观的理论洞察,以及通过减少训练和推理计算需求带来的环境效益。此外,这种几何通用性也为研究泛化、顿悟(grokking)、灾难性遗忘和数据效率等基本问题提供了新视角。
作者也坦承了若干开放问题:不同架构的通用子空间如何相互区别?能否通过显式设计架构来优化子空间的几何结构?更根本的是,如果所有网络都坍缩到同一子空间,它们就会继承共同的偏见、能力边界和失效模式 —— 这种多样性的缺失本身是否构成了一个根本瓶颈?是否应该开发专门用于打破这种收敛的方法?
方法与结果概览
作者证明,与架构相关、逐层分布的通用子空间在各类神经模型中持续涌现。无论模型是从头训练、完全微调还是通过低秩方法适配,对通用子空间假说的遵循都表现稳健,未见显著偏离。这一现象在不同的初始化策略、模态、数据格式和数据集内容之间保持不变。
值得注意的是,所提取子空间的精度与可用模型的数量和质量相关。基于此,作者推测每种架构内在地存在一个「理想」通用子空间,各个模型实例都在向其收敛。作者假设,更优的算法、更干净的数据和更有效的优化策略能使模型更接近这一理想状态。尽管本文未正式验证「理想通用子空间」假说,但作者认为这一子空间代表了当代反向传播训练的神经网络最稳定的配置,因此这一规则的例外情况可能为进一步的研究提供沃土。
分析方法
由于目前尚无方法能够比较不同架构模型的子空间,作者聚焦于在同一架构上训练的大量模型,对 LoRA 适配器以及 Transformer 和 CNN 的经典权重进行分析。除非另有说明,所有实验仅执行 1-2 阶的高阶奇异值分解(HOSVD),以确保方法在最简单情况下也能奏效。谱分析依赖高效的谱分解库,甚至可在 CPU 上运行,作者的所有分析和实验均在单块 Nvidia A5000 GPU 上完成。通过对数千个公开可用模型进行分析,作者无需任何训练成本即可提取通用子空间。
以下是作者所实现的算法: