登录

CVPR 2026|还在关注Token熵?ReLaX从隐空间动力学出发重新解读大模型RL的探索


速读:但这一思路忽略了一个更根本的事实:Token只是模型内部隐层状态在解码过程中的压缩表达,不可避免地丢失了部分计算信息,而非推理本身。 抑或,探索–利用的本质,其实蕴含在模型的内部计算过程之中? 他们发现,大模型的推理过程并不是简单的序列生成,而可以从动力学的视角来理解:其本质是隐层状态在高维空间中的连续演化,这一过程承载了模型内部的计算逻辑。 然而,核心难题在于:如何捕捉大模型内部高维、复杂的非线性动力学?
CVPR 2026 | 还在关注Token熵?ReLaX从隐空间动力学出发重新解读大模型RL的探索-利用平衡

CVPR 2026 | 还在关注Token熵?ReLaX从隐空间动力学出发重新解读大模型RL的探索-利用平衡

2026年04月03日 18:0

强化学习正逐渐成为大模型能力跃迁的核心驱动力。从 OpenAI o3、DeepSeek-R1 到 Gemini 3,一系列前沿模型通过强化微调不断突破复杂推理任务的性能上限。然而,在这些进展背后,一个隐性的问题正逐渐显现:随着训练推进,策略分布持续收缩,探索能力在模式坍塌中不断衰减,最终陷入优化的欠收敛与性能瓶颈。

这一现象本质上源于强化学习中的探索–利用(exploration-exploitation)失衡,而在 RLVR(可验证奖励强化学习)范式下,稀疏奖励进一步放大了这一问题。

过去一年,大量工作试图从表层 token 入手,通过提升输出分布的熵来维持多样性。但这一思路忽略了一个更根本的事实: Token 只是模型内部隐层状态在解码过程中的压缩表达, 不可避免地丢失了部 分计算信息 ,而非推理本身。当调控停留在输出层时,真正承载推理过程的这一 “计算空间” 几乎未被触及。与此同时,在当前主流多模态模型(如 Qwen-VL)中, 尽管 CoT 以文本形式呈现,其跨模态推理过程却发生在隐空间之中 ,进一步放大了这种 “表达–计算” 的错位。

于是,一个更关键的问题浮现出来: 仅通过提升 token 多样性,真的能够从本质上改善模型的探索能力吗?抑或,探索–利用的本质,其实蕴含在模型的内部计算过程之中?

港理工&上海 AI Lab 的研究人员进一步将问题 “向内推进”,把目光从输出层转向模型的内部计算。他们发现,大模型的推理过程并不是简单的序列生成,而可以从动力学的视角来理解: 其本质是隐层状态在高 维空间中的 连续演化,这一过程承载了模型内部的计算逻辑。

基于这一洞察,研究团队提出了  ReLaX(Reasoning with Latent eXploration)  框架:不再直接干预 token 生成的多样性,而是在策略优化过程中显式调控模型的隐空间动力学结构,从而在更底层实现对探索与利用的平衡。

论文链接:https://arxiv.org/abs/2512.07558

开源权重:https://huggingface.co/collections/SteveZ25/relax-checkpoints

Github: https://github.com/ZhangShimin1/ReLaX

ReLaX 核心方法解读

1️⃣ 隐空间探索:从随机扰动到真实探索

大模型的推理,并不是单纯的 token 输出,而是 隐层状态在高维空间里的连续演化 。ReLaX 将这套隐层演化看作一个 “随机动力学系统”:模型内部状态会随着推理逐步变化,而采样温度、top-p、top-k 等随机扰动则像水流中掀起的涟漪,推动隐层状态偏离原轨迹。

仅仅在输出层制造、放大 token 生成的随机性,往往无法真正解锁模型内部探索潜力,关键是: 只有当模型的内部动力学模式足够丰富,这些微小扰动才能被放大成多样的 latent 轨迹 ,从而产生有效探索。

2️⃣ 动态谱散度(DSD):量化隐空间动力学模式的多样性

然而,核心难题在于:如何捕捉大模型内部高维、复杂的非线性动力学?传统控制理论提供了一把利器 —— Koopman 算子(Koopman Operator) ,它允许我们在特定函数空间中,用线性的视角去观测和分析非线性系统的演化。

在这一框架下,ReLaX 引入前沿方法  ResKoopNet ,通过 MLP 学习出一个理想的  Koopman dictionary ,将大模型最后一层隐藏状态的复杂演化映射到一个可解析的线性空间中。换句话说,它将大模型隐层中如 “黑盒” 般混沌的推理轨迹,化繁为简,转化为可分析的谱特征。基于该谱空间,研究者提出了 动态谱散度(DSD) 指标。它通过计算单条轨迹内部动态谱模长的方差,精准量化了模型隐空间动力学结构的 “异质性”。这些模长深度揭示了增长(growth)、衰减(decay)与振荡(oscillation)等动力学模式的核心特质。 DSD 越高,意味着大模型在推理过程中内部动力学模式越丰富,从而在 latent 空间中更有潜力探索多样化、创新性的解题路径。

简而言之,DSD 是对大模型内部 “思维多样性” 的量化:它不仅反映了内部计算的复杂性,也为探索-利用的策略优化提供了明确方向。

3️⃣ DSD 引导下的策略优化:让探索更有方向

有了 DSD,我们终于有了量化大模型隐空间探索能力的 “罗盘”。ReLaX 将基于这一指标设计的序列级正则化项融入经典算法  GRPO ,不仅告诉模型哪些轨迹值得关注,还指导它如何在探索与利用之间取得平衡。

具体来说,ReLaX 设计了两条关键机制:

优势塑形(Advantage Shaping) :正则项与正向优势值绑定,只在带来正向收益的轨迹上提升隐空间的灵活度。这意味着模型不会盲目探索无用路径,而是把计算能力集中在高潜力轨迹上,避免无意义的模式漂移(semantic drift)。

自适应 KL 正则(Adaptive KL Regularization) : 对 DSD 超阈值的轨迹施加惩罚,以约束过度发散的动态谱,保证训练稳定性;同时对有潜质的轨迹保留充足探索空间,让模型在安全范围内大胆尝试。

最终,ReLaX 不只是简单增加探索,它通过对隐空间动力学进行调控,形成一个动态平衡的优化目标:在保证训练稳定的前提下,让大模型的隐层计算自由伸展,持续发掘更丰富的内在推理路径。

实验结果:打破 RLVR 性能瓶颈,持续激发大模型推理潜能

🔍 告别多样性束缚下的 “次优收敛”

作者在纯文本大模型(LLM)和多模态视觉-语言大模型(VLM)上验证了 ReLaX 的效果,并与 GRPO 在 3B/7B 规模下的训练进行了对比。通过训练过程中模型性能与 token 熵的关系图,可以直观观察到模型是否陷入多样性不足导致的性能瓶颈。

主题:模型|探索|推理过程|探索-利用平衡