登录

清华新年首篇Science!用AI一天完成万亿级药物配对,覆盖半数人类基因


速读:研究中,他们并不是让AI去模拟分子挤进蛋白质口袋的复杂物理过程,而是借鉴了人们在日常生活中常用的以文字搜索图片的技术。 训练的目标很简单:让能够结合的蛋白质口袋和分子的向量变得非常相似,也就是在数字空间里靠得很近; 蛋白质内部氨基酸之间的相互作用,与蛋白质和药物分子之间的相互作用原理是相同的。 它只需使用8张顶级显卡,就能在不到24小时内完成超过10万亿次蛋白质与分子的匹配计算,为将近一半的人类基因组找到了超过200万个潜在的候选药物分子。
2026年01月09日 17:1

2026 年清华大学第一篇  Science  论文花落清华大学智能科学讲席教授、智能产业研究院(AIR)院长张亚勤院士团队,该学院的兰艳艳教授团队和合作者研发出一款名为  DrugCLIP  的 AI 工具,能以前所未有的速度和准确率,为成千上万个人类蛋白质找到潜在的药物钥匙。

它只需使用 8 张顶级显卡,就能在不到 24 小时内完成超过 10 万亿次蛋白质与分子的匹配计算, 为将近一半的人类基因组找到了超过 200 万个潜在的候选药物分子。

这一研究首次完成了覆盖人类基因组规模的药物虚拟筛选,首次打通了从蛋白结构预测到药物发现的关键通道,可覆盖约 1 万个蛋白靶点、2 万个蛋白口袋,分析筛选了超过 5 亿个类药小分子,借此构建了已知最大规模的蛋白-配体筛选数据库,目前该数据库已免费面向全球科研社区开放 [1]。

图 | 兰艳艳(来源:https://air.tsinghua.edu.cn/info/1046/1200.htm) 图 | 兰艳艳(来源:https://air.tsinghua.edu.cn/info/1046/1200.htm) 论文共同一作清华大学智能产业研究院(AIR)博士后贾寅君告诉DeepTech:“一方面,我们聚焦于药物研发最早期的苗头化合物发现阶段, 把蛋白质结构预测的AI成功进一步推进到化合物层面 ,使研究能与化学家直接对话;另一方面,我们致力于以组学视角系统性探索药物靶点,突破传统单一靶点研发模式的局限,旨在通过对人类蛋白质组的全面筛选,为未来攻克更多疾病提供新起点。尽管目前距离实际药物应用仍有 ADME 优化、临床验证等诸多挑战,但本研究为AI驱动的大规模靶点探索奠定了基础。”

图 |  贾寅君(来源: 贾寅君 )

将以文搜图原理用于 AI 寻药

研究中,他们并不是让 AI 去模拟分子挤进蛋白质口袋的复杂物理过程,而是借鉴了人们在日常生活中常用的以文字搜索图片的技术。当我们使用搜索引擎以文字搜索图片,寻找一张符合描述的照片时,背后的技术并不是比较像素,而是比较图片被转换成的一组数字特征也就是向量。对于语义相似的文字和图片来说,它们的特征向量在数学空间里的位置会非常接近。

(来源:https://www.science.org/doi/10.1126/science.ads9530) (来源:https://www.science.org/doi/10.1126/science.ads9530) DrugCLIP 也是这么做的,研究人员训练了两个神经网络:

第一个神经网络起着分子编码器的作用,可以把任何一个小分子化合物,转换成为一组代表其特征的数字向量;

第二个神经网络起着口袋编码器的功能,可以把蛋白质上那个可以结合药物的凹陷区域也就是结合口袋,也转换成为一组数字向量。

训练的目标很简单: 让能够结合的蛋白质口袋和分子的向量变得非常相似,也就是在数字空间里靠得很近;让不能结合的向量差异变得很大也就是离得很远。

这样,当面对一个新的蛋白质的时候,DrugCLIP 只需要做这样一个步骤:把这个蛋白质口袋也变成一个向量,然后去已经预存好的分子向量库里,快速地计算余弦相似度,找出和它最像、也就是最可能结合的那些分子。这个过程非常快,因为本质上就是大量的向量点乘运算,非常适合使用 GPU 进行并行加速。

为了让 AI 在没有足够真实数据的情况下也能学好,他们想出了这样一个方法:使用蛋白质自己假装药物来训练。他们从已知的蛋白质结构数据库中,截取一小段氨基酸链比如 3-8 个氨基酸,把它当做伪配体,而它周围的区域则被当做伪口袋。

蛋白质内部氨基酸之间的相互作用,与蛋白质和药物分子之间的相互作用原理是相同的。通过使用这种方法,他们生成了 550 万个伪复合物数据来对 AI 进行预训练,从而让它掌握了识别结合模式的基本功。

主题:蛋白质|向量|以文字搜索图片