生物医疗是一个极其活跃的科学领域每天都有超过十万个蛋白质序列被添加到全球序列数据库中

来源:TechWeb 2022-02-23 17:06:53  阅读量:8362   

蛋白质是组成人体一切细胞,组织的重要成分机体所有重要的组成部分都需要有蛋白质的参与

生物医疗是一个极其活跃的科学领域每天都有超过十万个蛋白质序列被添加到全球序列数据库中

目前已知存在的蛋白质种类有数十亿,但其中大约有三分之一的功能是不可知的我们迫切地需要探索这片未知区域,因为它们关系到抗菌素耐药性,甚至气候变化等重要议题例如,青霉素是蛋白质之间自然反应的产物,植物蛋白可用于减少大气中的二氧化碳

最近几天,谷歌与欧洲生物信息学研究所合作开发了一种技术 ProtCNN,其能够使用神经网络可靠地预测蛋白质功能,帮助我们缩小蛋白质宇宙中最后不可见的区域。

谷歌表示,这种新方法让我们可以较为准确地预测蛋白质功能,突变的功能效应,并进行蛋白质设计,进而应用于药物发现,酶设计,甚至是了解生命的起源。

论文:Using deep learning to annotate the protein universe

谷歌提出的方法可靠地预测了更多蛋白质的作用,而且它们快速,便宜且易于尝试,其研究已让主流数据库 Pfam 中注释的蛋白质序列增加了近 10%,一举超过了过去十年的增速,并预测了 360 种人类蛋白质功能。

Pfam 数据库是一系列蛋白质家族的集合,其中每一个蛋白家族都以多序列比对和隐马尔科夫模型的形式来表示。

这些结果表明,深度学习模型将成为未来蛋白质注释工具的核心组成部分。

对于大多数人来说,我们更熟悉的是 DeepMind 此前预测蛋白质结构算法 AlphaFold 的工作AlphaFold 向我们展示了这些神秘生物机器的形状,新研究的重点则是这些机器的作用以及它们的用途

生物医疗是一个极其活跃的科学领域,每天都有超过十万个蛋白质序列被添加到全球序列数据库中但是,除非附有功能注释,否则这些条目对从业者的用途非常有限虽然人们会努力从文献中提取注释,每年评估超过六万篇论文,但这项任务的耗时性质意味着只有 0.03% 的公开可用蛋白质序列是手动注释的

直接从氨基酸序列推断蛋白质功能是科学社区长久以来一直在研究的方向从 1980 年代开始,人们就提出了 BLAST 等方法,其依赖于成对的序列比较,假设查询蛋白与已经注释的高度相似的序列具有相同的功能后来,人们引入了基于 signature 的方法,PROSITE 数据库对在具有特定功能的蛋白质中发现的短氨基酸「基序」进行分类基于 signature 方法的一个关键改进是开发了 profile 隐马尔可夫模型这些模型将相关蛋白质序列的对齐折叠成一个模型,该模型为新序列提供似然分数,描述它们与对齐的集合的匹配程度

在这里至关重要的是,profile HMM 允许更长的 signature 和更模糊的匹配,目前用于更新流行的数据库,如 Interpro 和 Pfam后期的改进使这些技术更加灵敏,计算效率更高,而它们作为网络工具的高可用性让从业者可以轻松将它们整合到工作流程中去

这些计算建模方法在学界产生了很大影响可是,至今仍有三分之一的细菌蛋白质没有被注释出功能究其原因,当前方法对每个比较序列或模型进行完全独立的比较,因此可能无法充分利用不同功能类共享的特征

Pfam—seed 模型的性能。

ProtCNN 的架构中心图展示了输入,嵌入和预测网络以及残差网络 ResNet 架构,而右图展示了 ProtCNN 和 ProtREP 通过简单的最近邻方法利用在这一表示中,每个序列对应一个点,来自同一家族的序列通常比来自其他家族的序列更接近

ProtENN 和 TPHMM 的组合提高了远程同源任务的性能TPHMM 和 ProtENN 模型的简单组合将错误率降低了 38.6%,将 ProtENN 数据的准确度从 89.0% 提高到 93.3%

结果表明,ProtCNN 学习了一种有意义的蛋白质序列表示方式,其可泛化到序列空间未知的部分,可用于预测和理解蛋白质序列的特性另一个挑战是检测蛋白质结构域及其在蛋白质序列中的位置此任务类似于图像分割,这正是深度学习模型擅长的任务虽然 ProtCNN 是使用域进行训练的,但研究展示了 ProtCNN 使用简单的滑动窗口方法将完整序列分割成域的能力

尽管不使用序列比对,但 ProtCNN 仍显示出了卓越的准确性。

声明:以上内容为本网站转自其它媒体,相关信息仅为传递更多企业信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险,需谨慎。

猜你喜欢

300

热门文章