AI首次精准预测细胞命运!华人科学家发布虚拟细胞重磅成果,或改变药物研发试错范式
最初相同的 DNA ,为何最终有的长成神经元,有的成为血细胞,有的是胰岛细胞?
数十年来,生物学家理解细胞会分化,但一个长期来很难准确预测的问题是:如果改动一个关键基因,细胞命运将发生怎样的改变?
现在,一个新型 AI 模型开始尝试回答这个问题: 作为可操作的计算机模拟 “ 细胞模型 ” ,模拟调控扰动并生成可验证、解释细胞命运决定机制的假说。
近期,德国亥姆霍兹慕尼黑中心 Fabian J. Theis 教授和英国牛津大学 Tatjana Sauka-Spengler 教授团队合作,开发了一种端到端的深度学习模型 RegVelo ( Regulatory Velocity ),首次将神经网络与细胞动态变化过程融合在同一框架中。
具体而言,研究人员通过结合微分方程和神经网络建模细胞内部的调控方式,对细胞的动态表达数据进行拟合,这样可以通过计算机模拟改变基因调控关系(例如敲除某个转录因子、下调调控特定回路),来预测细胞的命运将如何改变。
值得关注的是,研究团队将 RegVelo 应用于多个复杂的多谱系分化系统, 无论在小鼠胰腺内分泌发育、人类造血分化,还是斑马鱼神经嵴发育,该模型都表现出稳定且相对准确的终端状态识别能力。
RegVelo 测试动态生物系统类型,图为斑马鱼胚胎的荧光成像显示早期发育过程中的细胞群(来源:受访者)
可以这样来理解这项研究: RegVelo 从观测细胞运动的轨迹,同时推断驱动运动的内在调控逻辑,并用这个逻辑预测干预调控后的新轨迹。
该论文第一作者、亥姆霍兹慕尼黑中心博士生汪伟旭的研究方向是从调控网络预测细胞的分化的构建过程,他对 DeepTech 解释道: “ 这就像我们考驾照科目三时,不同的考生(目标基因)和考官(转录因子)的组合会有不同的行车结果,我去理解考官去调控考生的机制,最后可以告诉你,如果换一个考官或干脆不要考官了,科目三能不能过(即你的行车轨迹是满分)。 ”
电脑模拟实验是 RegVelo 的应用方向之一。汪伟旭认为,更令人兴奋的场景是类器官研究。 类器官领域最大的瓶颈并非能否长出细胞,而是分化效率不稳定、细胞成熟度不够、某些关键细胞类型难以诱导出现,这三个问题背后都指向同一个核心问题:哪些转录因子在哪个时间窗口驱动了正确的分化,而这恰好适合 RegVelo 来回答的问题。
具体来说,可在现有类器官单细胞数据上建模调控动态,然后在计算机预测 “ 如果在某个发育窗口激活或抑制某个转录因子情况下,最终的细胞组成会如何变化 ” ,再把最有希望的几个预测进行实验验证,把分化协议的优化从纯粹的实验试错压缩到计算引导的定向验证。
更进一步,对于类器官疾病模型,可以用患者来源的诱导多能重编程干细胞( iPSC )建立模型,在计算机里模拟不同的基因干预,预测哪些干预能把异常的细胞命运纠正回正常轨道,这让 RegVelo 有潜力成为药物靶点筛选的前端计算平台。
总体来说,这项技术为发育生物学、再生医学和疾病机制研究提供了一种具有预测扰动和分析扰动后结局的工具,有望显著减少功能筛选实验的盲目性,通过优先验证计算预测排名靠前的候选因子,进而加速关键调控因子的发现进程。
Cell )
近日,相关论文以《 RegVelo :基于基因调控信息的单细胞动态变化建模》( RegVelo: Gene-regulatory-informed dynamics of single cells )为题发表在 Cell [1] 。亥姆霍兹慕尼黑中心博士生汪伟旭和武汉大学胡致远教授,纪念斯隆 - 凯特林癌症中心 Philipp Weilier 博士是共同第一作者,姆霍兹慕尼黑中心 Fabian J. Theis 教授和牛津大学 Tatjana Sauka-Spengler 教授担任共同通讯作者。
细胞命运,究竟是谁决定的?
要理解用最基础的功能单元做虚拟细胞的意义,我们要先从虚拟细胞的历史演进讲起。 1943 年,埃尔温·薛定谔( Erwin Schrodinger )在都柏林高等研究院期间的演讲,后来被总结成一本书《生命是什么》。
很多人不知道的是,这本书的副标题是《活细胞的物理学方面》( The physical aspect of the living cell ),这也是最早思考活细胞底层的物理学原理:细胞作为最小功能单元是有序的,而彼时统计热力学正探讨如何从无序产生有序。
这与格雷戈尔 ·约翰·孟德尔( Gregor Johann Mendel )豌豆杂交实验揭示的遗传决定论存在冲突,即存在 “ 有序到有序 ” 的过程。薛定谔提出两个推测:一是遗传物质如果要稳定并储存信息,必须是非周期性晶体;二是生命依靠负熵而活,即我们通过外界的食物和其他负熵体来维持自身的有序性。
此外他还推测,应该有新物理或新理论解释遗传秩序(即基因里的秩序)如何放大到整个有机体。这套想法为现代分子生物学和生物信息学奠定了重要的基础,他较早将信息概念引入生物学,并为细胞观提供了一种机械论视角。
非周期性晶体的思想启发了科学家,最终促成了 DNA 双螺旋的发现, “ 从有序到有序 ” 的认识则为弗朗西斯 ·克里克( Francis Crick )提出中心法则( central dogma )提供了重要的思想基础。
但细胞尺度的有序性如何建立仍待回答:相同遗传物质如何决定不同细胞类型? DNA 序列改变如何产生新细胞类型?外部信号能否转换细胞状态? 2024 年,斯坦福大学教授、著名研究机构陈 - 扎克伯格倡议( Chan Zuckerberg Initiative, CZI )的科学主管斯蒂芬·奎克( Stephen Quake )将此称为 “ 细胞法则 ” ,它被看作虚拟细胞的真正母题,而并非简单的扰动预测。
1957 年,英国发育生物学家康拉德·沃丁顿( Conrad Waddington )提出了著名的景观隐喻模型 Waddington 景观:细胞发育的过程就像小球(细胞)从山顶滚入山谷,其中山顶分化势能最高,最终进入山谷并分化成当不同的终末细胞类型。他认为,景观之所以被塑造是复杂的遗传物质之间的调控网络塑造决定了细胞分化的方向。
该理论也启发了系统生物学家们从 21 世纪初开始研究基因调控回路问题,但受限于理论和硬件方面的约束,当时由于缺乏解数千个基因的动力学方程模型的数值求解器,只能用经典动力学研究相关过程。
随着 2010 年代单细胞测序技术( scRNA-seq )成熟,首次为全基因组尺度观测数据提供了支持。并且 GPU 和深度学习技术也开始发展,出现了混合模型( hybrid model ):常微分方程提供动力学骨架,神经网络从数据中学习未知调控关系, GPU 求解器使高维计算可行。
因此,从 “ 细胞作为信息处理单元 ” 的历史发展演进来看, Waddington 的景观提供了隐喻,系统生物学把它变成方程,而混合模型则将其进一步发展为可以从数据学习的计算问题。
为什么之前的模型会 “ 看反 ”
如何检验模型真实有效,并在生物数据中具备一定泛化能力,这是 AI for Biology 的常见问题之一。 RegVelo 想要解决的核心问题是: 细胞的分化是如何被基因调控回路确定下来的?
如果从目前的 AI 系统去看,不难发现其最擅长的是有明确信息流动的,即 “ 从有序到有序 ” 的过程。比如蛋白质折叠问题,从一级氨基酸序列到三维空间结构,有着明确的带边界的状态空间。
所以,对于 AI 系统来说要在生物数据中能走通,有时候问题能否被解决,不只取决于数据规模或模型架构,更根本的是问题本身是否被正确地表达——能否找到一个有明确信息流动方向的有序框架来定义输入和输出。特别是当问题的输出并不是有序时,能否放在一个有序的框架下进行检验。
主题: