登录

解密2024诺贝尔物理学奖为啥颁给AI:Hinton和Ilya 12年前对话,引发物理诺奖AI风暴


速读:昨天的诺贝尔物理学奖一公布。 AlexNet摧枯拉朽般的大胜,让研究人员惊叹于大型卷积深度神经网络架构的神奇威力,这篇论文也成为深度学习和人工智能自「AI寒冬」后重新成为热门领域的重要里程碑。

昨天的诺贝尔物理学奖一公布,瞬间炸翻了物理圈和 AI 圈。

Hinton 的第一反应更是有趣:这不会是个诈骗电话吧?

如此出乎意料的结果,让各路针对诺奖物理学奖的严肃预测让,都仿佛成了笑话。

而诺贝尔奖的官方账号,也被网友们给冲爆了。他们纷纷高呼: 这不是物理学!

「数据科学或神经网络是『用于』物理学,但绝对不『是』物理学。」

相比之下, AI 圈则是一片其乐融融的景象 。大佬们都开心地给 Hinton 送去了祝福。

AI 教母李飞飞:AI 的深远影响,如今才刚刚开始 AI 教母李飞飞:AI 的深远影响,如今才刚刚开始 AI 教母李飞飞:AI 的深远影响,如今才刚刚开始 AI 教母李飞飞:AI 的深远影响,如今才刚刚开始 AI 教母李飞飞:AI 的深远影响,如今才刚刚开始 AI 教母李飞飞:AI 的深远影响,如今才刚刚开始 MIT 博士生 Ziming Liu 直言:「Physics (Science) for AI」是一个被严重低估的领域。规模化可以实现一对多的效果,但唯有科学才能带来从无到有的突破。

Jim Fan 则做了一个非常有趣的「AI-物理学对照表」:

想冲击诺奖的 AI 学者们,你们学会了吗 想冲击诺奖的 AI 学者们,你们学会了吗 言归正传,诺贝尔物理学奖,为何要颁给 AI 学者?

这就要从深度学习爆发的那一年讲起。

Geoffrey Hinton:2012 年,深度学习的惊人革命

早在 1986 年,Geoffrey Hinton 等人在 Nature 上发表的论文,就让训练多层神经网络的「反向传播算法」广为人知。

当时我们很多人都相信这一定是人工智能的未来。我们成功地证明了我们一直相信的东西是正确的。

可以说,神经网络在经历第一波寒冬之后,自此开始重新走向 AI 舞台。

1989 年,LeCun 率先使用了反向传播和卷积神经网络。他也同意 Hinton 的看法。

我毫不怀疑,最终我们在上世纪 80-90 年代开发的技术将被采用。

早期的图灵三巨头 早期的图灵三巨头 不过,反向传播算法引发的热潮,随后又在 1995 年被统计机器学习盖过去了。

统计机器学习的风头兴盛了很多年,即使 2006 年 Hinton 在 Science 上首次提出「深度学习」,业内也响应寥寥。

直到 2012 年 9 月,一篇题为「用深度卷积神经网络进行 ImageNet 图像分类」的论文,让此前沉寂多年的 AI 领域热度骤起。

文中提出的 AlexNet 深度卷积神经网络,在当年的 ImageNet 比赛上以碾压之势夺冠,一举将 top-5 错误率降低到了 15.3%,比身后的第二名(26.2%)足足高出 10 多个百分点。

ImageNet 数据集,正是由斯坦福李飞飞团队在 2007 年创建。

AlexNet 摧枯拉朽般的大胜,让研究人员惊叹于大型卷积深度神经网络架构的神奇威力,这篇论文也成为深度学习和人工智能自「AI 寒冬」后重新成为热门领域的重要里程碑。

后来人们所讲的「深度学习革命」,也借此文以发端,直到十二年后的今天。

事后李飞飞这样回顾:自 2012 年以来,深度学习的发展堪称「一场惊人的革命,令人做梦都没想到」。

自此,人们开始相信:大数据、算力、深度模型,是走向通用人工智能的关键三要素。

而深度模型也从最早的卷积神经网络,迭代为递归神经网络、Transformer、扩散模型,直至今天的 GPT。

从生理学、哲学到 AI:大脑究竟如何思考

在年轻时,为了弄清楚人类的大脑如何工作,Hinton 首先来到剑桥学习生理学,而后又转向哲学,但最终也没有得到想要的答案。

于是,Hinton 去了爱丁堡,开始研究 AI,通过模拟事物的运行,来测试理论。

「在我看来,必须有一种大脑学习的方式,显然不是通过将各种事物编程到大脑中,然后使用逻辑推理。我们必须弄清楚大脑如何学会修改神经网络中的连接,以便它可以做复杂的事情。」

「我总是受到关于大脑工作原理的启发:有一堆神经元,它们执行相对简单的操作,它们是非线性的,它们收集输入,进行加权,然后根据加权输入给出输出。问题是,如何改变这些权重以使整个事情做得很好?」

某个周日,Hinton 坐在办公室,突然有人敲门。AI 命运的齿轮从此转动。

敲门的正是 Ilya。

当年青涩的 Ilya 当年青涩的 Ilya Hinton 给了 Ilya 一篇关于反向传播的论文,约定两人一周后讨论。

Ilya:I didn't understand it.

Hinton:这不就是链式法则吗?

Ilya:不是,我不明白你为啥不用个更好的优化器来处理梯度?

—— Hinton 的眼睛亮了一下,这是他们花了好几年时间在思考的问题。

Ilya 很早就有一种直觉:只要把神经网络模型做大一点,就会得到更好的效果。Hinton 认为这是一种逃避,必须有新的想法或者算法才行。

但事实证明,Ilya 是对的。新的想法确实重要,比如像 Transformer 这样的新架构。但实际上, 当今 AI 的发展主要源于数据的规模和计算的规模 。

2011 年,Hinton 带领 Ilya 和另一名研究生 James Martins,发表了一篇字符级预测的论文。他们使用维基百科训练模型,尝试预测下一个 HTML 字符。

模型首次采用了嵌入(embedding)和反向传播,将每个符号转换为嵌入,然后让嵌入相互作用以预测下一个符号的嵌入,并通过反向传播来学习数据的三元组。

当时的人们不相信模型能够理解任何东西,但实验结果令人震惊,模型仿佛已经学会了思考 —— 所有信息都被压缩到了模型权重中。

AI 如何「蹭」上物理学

讲到这里,你可能有一个疑问:这些跟物理学有什么关系呢?

诺奖委员会的解释是, 人工神经网络是用物理学工具训练的 。

Geoffrey Hinton 曾以 Hopfield 网络为基础,创建了一个使用不同方法的新网络: 玻尔兹曼机 。在这个过程中,Hinton 使用的是统计物理学的工具,来学习和识别数据中的模式。

就这样,AI 跟物理学联系上了。

如果讲到此次另一位获奖者 John Hopfield,倒是和物理学的关系更紧密一些。

一言以蔽之,Hopfield 网络是按物理学上能量函数最小化来构建的, 可以看作是物理学中「自旋玻璃模型」的扩展 。

Hopfield 网络利用了材料由于其原子自旋而具有特性的物理学 —— 这种特性使每个原子成为一个微小的磁铁。整个网络的描述方式等同于物理学中发现的自旋系统中的能量,并通过找到节点之间连接的值来训练,使保存的图像具有低能量。

另外, Hopfield Network 和玻尔兹曼机都是基于能量的模型 。

统计力学原理,便是这两者的核心。它们都使用来自统计力学的能量函数,来建模和解决与模式识别和数据分类相关的问题。

在前者当中,能量函数被用来寻找与所存储的模式相对应的最稳定状态。后者中,能量函数通过调整节点之间连接的权重来帮助学习数据的分布。

至此,诺奖委员会就自圆其说了。

John Hopfield:一个想法,波及三大学科

20 世纪 80 年代初,John Hopfield 在加州理工学院创建了一个简单的计算机模型 ——Hopfield Network。

其行为方式不太像当时的计算机,而更像人脑。

这是因为,Hopfield Network 模仿了人脑储存信息的结构。它由相互连接的节点组成,正如人脑中的神经元一样。

节点中的连接强度具有可塑性,可强可弱,而强连接进而形成了我们所说的「记忆」。

Hopfield 学生,现 Caltech 计算机科学、计算与神经系统以及生物工程教授 Erik Winfree 解释道:

Hopfield Network 是物理学中「自旋玻璃模型」(the spin glass model)的扩展。自旋玻璃有两种磁化状态,可以称之为它的「记忆」。

Hopfield 扩展了这一模型,让其有了更复杂的连接模式。

简言之,他使用一个简单的规则,让每对单元(每个节点)之间有不同的连接强度,而不再局限于两种状态。

他的工作证明了,这种网络可以储存多种复杂的模式(记忆),而且比之前的方法更接近大脑运作方式。

Hopfield 以一种跨学科的视角阐述这个模型,解释了人工神经网络与物理学之间的联系。

复旦大学计算机科学教授张军平认为,Hopfield Network 与物理学领域的关联是,它的设计思路模拟了电路结构。

「假设网络每个单元均由运算放大器和电容电阻组成,而每个单元就代表着一个神经元」。

在普林斯顿大学新闻发布会上,Hopfield 表达了同样的观点。他认为,长远来看,新科学领域通常产生于,大量科学知识的交叉点上。

你必须愿意在这些「缝隙」中工作,找出你的知识局限性,以及让这些学科更丰富、更深入、更好被理解而采取的行动。

主题:物理学|神经网络|深度学习|反向传播