登录

为什么LLM难以直接复刻AlphaGo的树搜索奇迹?


速读:语言推理中间态价值评估的不可靠性如何阻碍树搜索机制在LLM中的落地?
2026年05月23日 10:3

当前大语言模型(LLM)正处于快速发展的状态,但在强化学习阶段面对长逻辑轨迹时,却面临着「信用分配」困难与梯度方差暴增等难题 。相比之下, AlphaGo 通过 MCTS,成功高保真地摊销了复杂的搜索空间。基于此,Eric Jang 指出,由于语言生成空间规模极其庞大且极度开放,传统的 MCTS 难以直接套用于 LLM 。但他从中提取出了关于大模型演进的洞察,他指出,LLM 可以在没有显式树状结构的情况下,通过算力置换将推理搜索打包内化进前向传播中。

目录

01.  多模态 RAG 为什么要重写检索对象?  「信用分配」难题如何使 LLM 的强化学习效率受限? 

AlphaGO 对 AI 的下一步发展有哪些启示?前1X Ai副总裁在休假时有哪些感悟? ...

02 . 「在哪里检索」才是 RAG 面对企业知识库的关键挑战? 为什么不能直接把 AlphaGo 的 MCTS 抄到 LLM 里? 

围棋与语言生成在搜索空间上的差异如何阻碍 MCTS 直接套用于 LLM? 语言推理中间态价值评估的不可靠性如何阻碍树搜索机制在 LLM 中的落地? ...

03 . RAG 的重点如何从来源链接走向可核验证据? 放弃显式树搜索后,LLM 如何实现自我进化? 

放弃显式树搜索后,LLM 如何通过算力置换将复杂推理能力打包内化进前向传播?冷启动阶段的极低通过率在如何浪费无模型 RL 的算力? ...

「信用分配」难题如何使 LLM 的强化学习效率受限? 

1、近日,前 1X Technologies AI 副总裁、前 Google DeepMind 机器人研究科学家 Eric Jang 接受了 Dwarkesh Patel 的访谈,分享了他在近期休假中,重构、优化、破解 AlphaGo 的感悟,并分析了 AlphaGo 对人工智能研发的启示。

2、通过近期的研究,Eric Jang 认为 AlphaGo 是意义深远的,这是因为 AlphaGo 用一个仅仅 10 层左右的神经网络,能够极其高保真地「摊销(Amortize)」原本被认为是计算上几乎无法解决的搜索问题。 

3、Eric Jang 解释道,AlphaGo 的高效运行逻辑并非依赖算力的暴力破解,而是将神经网络与蒙特卡洛树搜索(MCTS)进行了深度融合。 

① 在一轮完整的搜索循环中,算法会依赖价值网络(Value Network)对当前局面进行胜率预盘,从而提前截断 MCTS 展开的搜索深度。

② 其次是利用策略网络(Policy Network)评估并建议高潜力的落子位置,从而大幅度剪枝 MCTS 的搜索广度。 

③ 通过这种机制,发散且不可控的决策树得以收敛,最终内化为神经网络一次快速且稳定的前向传播(Forward Pass)。 

4、与 AlphaGo 的精确控制相比,Eric Jang 从数理逻辑指出,当前 LLM 依赖的策略梯度(Policy Gradient)强化学习在面对长逻辑轨迹时,会面临极高的梯度方差。 

① Eric 强调,如果采用多步强化学习,通过交叉相乘计算梯度方差时,会产生一个随时间步长 T 呈二次方增长的项。

② 同时,若试图在每个特定 Token 上分配奖励,各个项的交叉相乘会产生复杂的交互效,从而引信用分配(Credit Assignment)难题,即如何将整个回合(Episode)的信用精确归因到所有不同的项上。

5、由于在 LLM 的生成中,当前的奖励通常在整段序列生成完毕后才出现,为了规避上述难题,当前的 LLM RL 实际上是将整段长序列作为一个单一动作(即 T=1)来处理。 

① Eric 解释道,如果将问题分解为多步,在计算过程中会在动作之间引入相关性,从而进一步放大方差。因此,LLM 采用 T=1 的设定,将整个序列的对数概率视为单个 Token 概率之和。

② 尽管如此,在 T=1 的情况下,naive REINFORCE estimator 依然保留了较高、高的梯度方差。这导致模型在面对零梯度的失败样本时无法进行有效训练,必须依赖将样本量级提升至数百万次,才能在海量的中性标签中提取到有意义的监督信号。

6、针对上述无模型强化学习(Model-free RL)试图解决的「信用分配」困境,AlphaGo 成功的原因在于其 MCTS 机制采取了不同的路径,它不再试图基于最终的胜负来进行信用分配,而是致力于为模型走过的任何一个给定动作「改进标签」。

① Eric 指出,只要具备一个优秀的价值函数,MCTS 的树搜索就能给出一个比初始猜测更好的结果。它充当了「更好的教师」,通过对智能体尚未访问过的轨迹进行前向规划,为每一步提供严格更优的行动标签。

② 无论是 MCTS,还是在无法进行完美树搜索的复杂游戏(如星际争霸)中所采用的神经虚拟自我对弈(NFSP)或 Q-learning,都是通过搜索或最佳响应策略,用更好的动作去「重新标记」状态。这种机制绕开了在长轨迹中进行信用分配的难题,将策略提升转化为了利用更好标签进行强监督的过程。

为什么不能直接把 AlphaGo 的 MCTS 抄到 LLM 里? 

1、既然 MCTS 在围棋中表现优异,那么能否直接将其应用到 LLM 中?针对这一问题,Eric Jang 指出了两种任务的差异,认为直接将 MCTS 机制套用到 LLM 中必然面临极大的不适应...

 关注👇🏻 「机器之心PRO会员」,前往「收件箱」查看完整解读

主题:树搜索|为什么