诺奖得主David Baker学生沈浩署名文章：蛋白质设计究竟是什么？

速读：诺奖得主DavidBaker学生沈浩署名文章：蛋白质设计究竟是什么？ 2024年的诺贝尔化学奖授予了在计算蛋白质设计方面取得卓越成就的美国华盛顿大学蛋白质设计研究所所长大卫·贝克（DavidBaker）教授，以及在蛋白质结构预测方面取得突破的DeepMind团队，可谓实至名归。 2003年，他们设计出了首个具有全新折叠方式的Top7蛋白，从此开启了计算蛋白质设计的新纪元。我在大学的生物化学课程中学到，人类基因组测序揭示了大量DNA序列，这些序列所编码的蛋白质序列也已基本确定。当贝克刚到华盛顿大学任教时，他的研究领域集中在蛋白质折叠。

2024年10月10日 19:56

2024 年的诺贝尔化学奖授予了在计算蛋白质设计方面取得卓越成就的美国华盛顿大学蛋白质设计研究所所长大卫·贝克（David Baker）教授，以及在蛋白质结构预测方面取得突破的 DeepMind 团队，可谓实至名归。

作为贝克的博士生和博士后，我想谈谈我对计算结构领域的理解以及我眼中的贝克教授。

图丨本文作者沈浩（左）与大卫·贝克（David Baker）教授（来源：沈浩）我在大学的生物化学课程中学到，人类基因组测序揭示了大量 DNA 序列，这些序列所编码的蛋白质序列也已基本确定。

然而，绝大部分蛋白质的功能尚不清楚，因为在序列信息之上，还有更重要的一层，那就是蛋白质的三维结构。

1972 年，诺贝尔化学奖的一项重大发现就是蛋白质的三维结构由一维序列决定。通过漫长的进化，自然界筛选出一系列蛋白质序列，这些序列通过合理排列疏水性和亲水性氨基酸，在水中自发折叠形成蛋白质的结构。

然而，从物理上计算这一过程的复杂性极大，能量状态难以精确描述，这一直是科学上的未解之谜，被誉为真正的“生命密码”。

贝克本科就读于美国哈佛大学，主修哲学、辅修生物学。大学毕业后，他休学了一年环游世界，期间也游览过中国，可谓是中国实施改革开放后第一批“打卡”中国的先锋国际友人。

后来，他决定找点能逐步积累的方向研究，于是加入美国加州大学伯克利分校教授、2013 年诺贝尔生理医学奖得主兰迪·谢克曼（Randy Schekman）实验室攻读博士，研究细胞内的蛋白运输。

博士后阶段，他加入了美国加州大学旧金山分校的大卫·阿加德（David Agard）实验室，研究蛋白质结构。

当贝克刚到华盛顿大学任教时，他的研究领域集中在蛋白质折叠。他的设想是：如果能把蛋白质折叠的过程放慢，说不定能观察到其中的细微变化。

然而，实验发现这种方法并不奏效，蛋白质一旦达到折叠的临界点，折叠过程会瞬间完成。但这并没有让他气馁，因为在这过程中，他偶然发现了一些短肽链可以形成稳定的局部结构。

这时，他灵机一动：既然计算整个蛋白质的折叠过于复杂，不如从局部肽段结构入手，看看能不能通过拼装搞定整个折叠过程。

于是，贝克和他的团队将蛋白质数据库（PDB，Protein Data Bank）中的蛋白质打碎成小肽段，并通过随机插入组装的方法，用能量函数判断是否接受每一步，像搭积木一样，研发出了 Rosetta 蛋白质结构预测软件。

这个软件在 2004 年第六届蛋白质结构预测大赛（CASP，Critical Assessment of Structure Prediction）上“一战成名”，成为当时的标杆。但由于能量函数的准确性和搜索空间的限制，蛋白质结构预测依然是个难题。

于是，贝克和当时的博士后布莱恩·库尔曼（Brian Kuhlman）提出：

既然 Rosetta 的蛋白质构象空间搜索和能量评估已经取得一定成绩，为什么不反其道而行之？从结构出发，设计蛋白质，再计算能折叠成该结构的蛋白质序列。

2003 年，他们设计出了首个具有全新折叠方式的 Top7 蛋白，从此开启了计算蛋白质设计的新纪元。

自那以来，贝克实验室设计了各种功能、形态各异的蛋白质，从化学催化酶、到药物结合蛋白靶点、小分子结合蛋白、再到纳米材料等。

在此过程中，深度学习的人工神经网络逐渐崭露头角。

2014 年，贝克的博士生谢尔盖·奥夫奇尼科夫（Sergey Ovchinnikov）‬和博士后赫图南丹·卡米塞提（Hetunandan Kamisetty）基于深度学习原理，利用同源序列共进化信息改进了蛋白质结构预测，显著提高了准确性。

之后，DeepMind 团队更进一步，将共进化信息直接用作“能量函数”，开发出 AlphaFold1，在 2018 年的 CASP 比赛中将预测准确度提高到近 60%。

随后，2020 年 AlphaFold2 的优化进一步将准确度提高到 90% 以上，大部分蛋白质结构得以成功预测。

主题：蛋白质|结构|大学|贝克|蛋白质结构预测|蛋白质序列