快速发布企业信息
当前位置:首页行业资讯行业资讯企业新闻

开辟靶点发现新模型,GPT或是关键!

2023-06-15 00:00:00来源:Nature浏览量:181

自Open AI推出Chat GPT以后,人工智能领域迅速“引爆”全球,成为热议话题。无论是在娱乐媒体、代码软件,还是生物医药领域都能窥见其身影。

 

ChatGPT 聊天机器人实现的原理是基于迁移学习(Transfer learning)Transformer模型,这个模型同样也适用于生物医药的相关研究。

 

近日,格拉德斯通研究所(Gladstone Institute)的Christina Theodoris博士团队就基于迁移学习的Transformer模型开发了一个理解基因相互作用的基础模型,相关研究成果已发表于Nature,题为Transfer learning enables predictions in network biology。

 

1.png

 

这个新模型被称为 Geneformer,它从大量人体组织的基因相互作用数据中进行迁移学习,并将这些知识用于预测疾病中可能出现的问题,以帮助我们了解相互连接的人类基因的大型网络如何控制细胞功能,以及这些网络的破坏如何导致疾病的发生。

 

什么是迁移学习(Transfer learning),它如何应用于网络生物学?

迁移学习是指 将已经在一个任务上训练好的模型应用于另一个任务上的一种机器学习方法。在网络生物学中,基因网络需要大量的转录组数据来学习基因之间的联系,但是在数据有限的情况下,这种方法会受到限制。

 

利用迁移学习,我们可以通过已经在大规模通用数据集上预训练好的深度学习模型,在有限的任务特定数据上进行微调,从而实现对基因网络中特定问题的预测。这种方法可以加速发现关键网络调节因子和候选治疗靶点,并且可以应用于罕见疾病或临床无法接触的组织等情况。

2.1.png

▲迁移学习策略示意图

 

 

Geneformer模型如何工作,相比其它深度学习模型有哪些优势?

Geneformer 模型利用开放数据构建了一个基因表达数据库(Genecorpus-30M),其中包括来自人体的 3,000 万个单细胞的基因表达谱。然后,研究人员使用该数据库对 Geneformer 进行训练。通过训练,Geneformer 学会了关注细胞中具有关键作用的基因,例如编码转录因子和中心调节节点的基因。Geneformer 还具有环境感知能力,使其 能够根据每个细胞的环境做出特定的预测,这对于研究多种受到影响的细胞类型的疾病和治疗靶点的可能因疾病阶段而异的进行性疾病尤其有用。

3.png

▲Genecorpus-30M组成

 

此外,Geneformer 可以通过迁移学习在有限的数据集上进行微调,以实现对基因网络中特定问题的预测。相比其他深度学习模型,Geneformer 具有多种优势:

 

1.       可以更好地捕捉基因之间的关系和网络动态。

2.       可以根据不同任务和数据集自适应地调整其预测能力。

3.       Geneformer 是在大规模转录组数据上进行预训练的,因此具有更好的泛化能力和更高的预测准确性。

4.       Geneformer 可以加速发现关键网络调节因子和候选治疗靶点,并且可以应用于罕见疾病或临床无法接触的组织等情况。

 

特别值得注意的是,当 Geneformer 针对与基因网络动态或 DNA-蛋白质复合染色质修饰相关的各种任务进行微调时,其结果比传统方法更具准确性。

 

心脏病案例验证

在一个心脏病的案例中,研究人员使用心肌细胞模型进行了测试,以区分正常心脏和受肥厚性或扩张性心肌病影响的心脏。具体而言,他们对有限数量的患者样本进行了疾病建模,并利用 Geneformer 模型预测候选治疗靶点。结果发现,在 iPSC(诱导多能干细胞)疾病模型中,实验性地针对这些候选治疗靶点进行治疗可以显著改善其功能,为 Geneformer 作为发现人类疾病候选治疗靶点的工具的实用性提供了实验验证。

 

此外,通过对基因网络的学习,Geneformer 可以应用于更多的场景,加速发现关键的基因网络调节因子和候选治疗靶点。随着数据的不断开放,未来可能会开发出能够联合处理多种数据类型的模型,并明确推断特定细胞类型和疾病之间的联系。

4.png

▲预训练的Geneformer架构

 

总结

通过绘制驱动人类疾病的基因调控网络,我们能够设计针对核心疾病机制而不仅仅是控制症状的治疗方法。Geneformer 也不仅仅是一种预测基因表达和细胞状态变化的工具,更是数字化探测生物系统的重要一步。

 

随着人工智能在生物医药领域的应用不断发展,我们可以期待更多类似 Geneformer 的模型的出现。这些模型将进一步加速疾病的诊断、预测和治疗的进程,为医学研究和临床实践带来巨大的潜力。

 

无论进行何种研究,数据的获取都是必不可少的先决条件。对于那些具有突破性的研究尤其如此,因为它们通常需要更多的基础数据支持。在这方面,陶术生物可以提供免费的开源数据库,其中包含了数千万条商业化小分子结构数据。同时,我们还可以提供对应的实体化合物,以满足不同科研工作者的需求。如果您对此感兴趣,欢迎私信咨询,我们将提供详细信息!

 

参考文献:

[1] Theodoris, C.V., Xiao, L., Chopra, A. et al. Transfer learning enables predictions in network biology. Nature (2023). https://doi.org/10.1038/s41586-023-06139-9

[2] Petrić Howe, Nick, and Benjamin Thompson. “AI identifies gene interactions to speed up search for treatment targets.” Nature, 10.1038/d41586-023-01803-6. 31 May. 2023, doi:10.1038/d41586-023-01803-6

 

 


更多 官方公告