一个问题几百美元,DeepMind智能体一次搞定了9个Erdős问题
又有 9 个埃尔德什(Erdős)问题被 AI 解决了,这次是 DeepMind 团队实现的。
上周日,大模型科研领域再次传来里程碑事件:DeepMind 的大模型在一次「测试」中,直接解决了 9 个开放的 Erdős 问题。这次 AI 不仅自动解题,还进行了自动验证,随后其解法通过了人工审查。这次研究是数学界和 AI 界已知的 首次针对开放式研究级数学问题进行的大规模形式化证明搜索评估。
现在,AI 不再只是在做奥数题了,现在它们已称得上是正经的「科研人员」。

论文:Advancing Mathematics Research with AI-Driven Formal Proof Search
论文链接: https://arxiv.org/abs/2605.22763v1
最近一段时间,大语言模型(LLM)在数学推理方面展现出了卓越的能力,但其固有的不稳定性限制了其在数学研究中的实际应用价值。一种缓解该问题的方法是利用 LLM 生成基于 Lean 等语言的正式证明。DeepMind 对该方法解决「开放性问题」的能力进行了首次大规模评估,其智能体自主解决了 353 个 Erdős 开放性问题中的 9 个,且解决每个问题的成本仅为数百美元;此外,它还证明了 OEIS 数据库中 492 个猜想中的 44 个,目前正被应用于组合学、优化理论、图论、代数几何及量子光学等领域的研究中。
这些研究发现不仅充分展示了人工智能辅助正式证明搜索技术的强大潜力,同时也为实现此类能力的智能体架构设计提供了重要的启示。
「Erdős 问题」通常不是指某一道单一的数学题,而是指由 20 世纪最具影响力的匈牙利数学家保罗·埃尔德什(Paul Erdős)一生中提出的大量数学问题与猜想。他留下了数百个经典的数学难题,主要集中在数论、组合数学和几何等领域。
现代组合学与数论的许多分支,正是在尝试解决这些问题的过程中建立起来的。从素数间隙到偏差理论,可以说这些问题塑造了整个学科领域。
那么,DeepMind 的 AI 是如何破解这些问题的?
方法
DeepMind 此次推出的框架名为 AlphaProof Nexus 。它的核心逻辑是:将大模型天马行空的「创造力」与 Lean 编译器绝对严谨的「判别力」结合起来。
配备 AlphaProof 的智能体的输入/输出示例(应用于 Erdős #125 问题)。 在这个框架下,人类数学家只需输入一个带有占位符(把证明部分留空,写上 sorry 占位符,即待证明部分)的代码草图,并用特殊的标记(如 EVOLVE-BLOCK 或 EVOLVE-VALUE)圈出范围,告诉 AI 哪些地方可以动,接下来就让智能体接管后续工作。解决问题的宏观战略规划、微观逻辑推导、引理创建甚至参数微调,全部交由 AI 闭环自主完成。
研究团队设计了两种核心的智能体架构,而这两种架构的对比,揭示了当前 AI 发展的一个重要趋势:
基础智能体:思考 - 尝试循环
这是一种简约的架构。系统启动多个无共享状态的子智能体独立运行。每个子智能体内部是一个多轮交互循环:底层模型(Gemini 3.1 Pro)通过「思考链」推理,调用搜索和替换工具修改代码草图。每次修改后,Lean 编译器会立即进行验证;如果报错,模型就利用报错信息进行自我反思和修正,不断循环,直到所有证明漏洞被填补。
全功能智能体:引入 AlphaProof
除了上述的基础循环,研究人员还引入了受 AlphaEvolve 启发的多智能体演化算法。他们让另一个大模型(Gemini 3.0 Flash)充当「裁判」,对生成的证明草图进行清晰度、合理性和新颖性的 Elo 评分,从而引导系统在庞大的可能性库中进行优胜劣汰的采样。此外,该架构还能调用专门针对奥数级别问题进行过强化学习训练的 AlphaProof 作为辅助求解工具。
全功能 AlphaProof Nexus 智能体的设计。
直觉上,全功能智能体应该全面碾压基础架构。但事后分析显示,极其简单的「基础智能体」同样成功解出了所有 9 道埃尔德什难题。研究团队明确指出,随着底层大模型(如 Gemini 3.1 Pro)自身智能密度的不断跃升,简单的智能体交互循环正在展现出惊人的效能。这预示着,在绝对客观的编译器反馈锚定下,工业界可能会逐渐从构建高度特化、复杂的训练系统,转向直接利用通用大模型的原生推理能力。
哪 9 个 Erdős 问题?

问题 12 (i) —— 避免整除的密集整数集(1970 年提出)
该问题探讨是否存在一个包含无穷多个正整数的集合,在这个集合中,没有任何一个数字可以整除另外两个更大数字的和。同时,这个集合在整个正整数范围内还要保持足够的「密集度」(满足特定的下密度下限)。AI 通过巧妙融合中国剩余定理与避免特定算术级数的构造法,给出了肯定的证明。
问题 12 (ii) —— 避免整除的更高密度极限(1970 年提出)
这是上一题的加强版,要求构造的集合在满足「不整除」条件的同时,拥有逼近极限的超高密度。AI 运用 Behrend 风格的构造法,在极其苛刻的约束下找到了满足条件的无穷集合,从而一举终结了这两个长达半个多世纪的悬案。
问题 125 —— 不同进制数字集合的加和密度(1996 年提出)
想象两个特殊的数字集合:一个只用 0 和 1 构成的三进制数字组成,另一个只用 0 和 1 构成的四进制数字组成。将这两个集合里的数字两两相加形成一个新集合,这个新集合的数字分布频率(下密度)是否大于零?AI 利用丢番图逼近原理,证明了随着数字规模的扩大,其分布密度会不断被稀释,最终严格证明其下密度为零。
问题 138(变体)—— 颜色与数列的间隔极限(1981 年提出)
这个问题与范德瓦尔登数有关,它描述的是在对连续整数进行染色时,为了保证一定能找到同色的等差数列,所需整数序列的最小长度。AI 采用贪心染色扩展算法结合局部矛盾分析,证明了随着等差数列长度要求的增加,这些范德瓦尔登数之间的间隔会趋于无穷大。
问题 152 —— 西顿集中的孤立点(1994 年提出)
西顿集是一种特殊的数字集合,其中任意两对数字的和都不相等。问题探讨当这种集合足够大时,其两两相加得到的新集合中,是否包含大量的「孤立点」(即该数字的相邻数字不在该集合中)。AI 通过对内部点、偏移邻居等进行细致的边界分析,给出了证明。
问题 741 (i) —— 集合拆分后的加和密度(1994 年提出)
如果一个集合与自身相加产生的新集合在自然数中占据了可观的比例(具备正的上密度),那么我们能否把原来的集合一分为二,使得这两半各自与自身相加产生的新集合,依然都能占据可观的比例?AI 给出了肯定的答案。
问题 741 (ii) —— 集合拆分与间隙界限(1994 年提出)
与上一题相关,AI 证明了存在一种极其特殊的「二阶基」集合,这种集合包含了一种「禁区」结构。无论你如何将它一分为二,这两个子集各自相加生成的新集合中,至少有一个必定会出现无限扩大的数字断层(无法保持有界间隙)。
问题 846 —— 平面点集的几何悖论(1992 年提出)
这是一个关于平面几何的奇妙问题。AI 证明了存在这样一种无限扩展的平面点集:你从中任意挑出有限个点,总能发现其中有很大一部分是不共线的(即没有三个点在同一条直线上)。然而,整个无限集合却无论如何也无法被拆分成有限个「绝对没有三点共线」的子集。
问题 26(延伸变体)—— 整数倍数密度的极值(1995 年提出)
这探讨了整数倍数在自然数系中的分布规律。AI 通过精妙的迭代构造(利用不断增加的素数序列),证明了存在一种特定的正整数序列,当你把这个序列中的所有数字都加上任意一个相同的正整数偏移量后,这些新数字生成的所有倍数,其在自然数中的占比永远会被严格限制在一个上限(小于四分之三)之下。
在 DeepMind 的实践中,大模型在不同问题上的计算开销差异巨大,绝大多数问题的平均成本在几十美元到几百美元之间,最「便宜」的问题仅需 7.5-15 美元。
看起来也没比 AI 写代码贵太多?
我们知道,上个星期 OpenAI 刚刚宣布使用内部通用推理模型 推翻了数学界近 80 年的「平面单位距离猜想」(Erdős Unit Distance Problem),再加上此次 DeepMind 提交的成果,一系列进步标志着大模型的能力和应用范式正在发生改变。
现在 AI 能够解决的问题,已是真正的数学开放性未知领域,它们面对人类数学家也没有探索完成的「无人区」,正在自主创造新知识。
科学发现的速度正在快速走向指数化。