人工智能 (AI) 正在帮助重新绘制病毒谱系。使用预测的蛋白质结构 阿尔法折叠 和受聊天机器人启发的 “蛋白质语言模型” 发现了一个病毒家族中令人惊讶的联系,其中包括感染人类的​​病原体和新出现的威胁。

科学家的很大一部分认识 病毒进化 基于比较基因组。然而,病毒(尤其是那些带有RNA基因组的病毒)闪电般的进化速度,以及它们从其他生物体获取遗传物质的倾向表明,基因序列可以隐藏病毒之间更深层、更遥远的关系,这种关系可能会根据所研究的基因而变化。

相比之下,病毒基因编码的蛋白质的形状或结构往往变化缓慢,使得检测这些隐藏的进化联系成为可能。然而,英国格拉斯哥大学的分子病毒学家 Joe Grove 表示,在像 AlphaFold 这样可以大规模预测蛋白质结构的工具出现之前,不可能比较整个病毒家族的蛋白质结构。

在本周发表的一篇文章中自然 1格罗夫和他的团队展示了基于结构的黄病毒方法的威力,黄病毒包括丙型肝炎病毒、登革热病毒和寨卡病毒,以及可能对人类健康构成新威胁的几种重要动物病原体和物种。

病毒如何入侵

研究人员对黄病毒进化的理解主要基于复制其遗传物质的缓慢进化的酶序列。然而,人们对黄病毒用来进入细胞并决定它们可以感染的宿主的“病毒进入”蛋白的起源知之甚少。格罗夫认为,这种知识差距将阻碍有效疫苗的开发 丙型肝炎 ,每年造成数十万人死亡。

“在序列层面,事情是如此不同,我们无法说它们是否相关,”他说。 “蛋白质结构预测的突破揭示了整个问题,我们可以非常清楚地看到事情。”

研究人员使用 深度思维 阿尔法折叠2 -型号和 ESM折叠,一个 结构- 科技巨头Meta开发的预测工具 ,生成来自 458 种黄病毒物种的超过 33,000 个蛋白质预测结构。 ESMFold 基于用数千万个蛋白质序列训练的语言模型。与 AlphaFold 不同的是,它只需要一个输入序列,而不依赖于相似蛋白质的多个序列,这使得它对于研究最神秘的病毒特别有用。

Hepatitis C Virus E1 glycoprotein predicted using ColabFold-AlpahFold2.

预测的结构使作者能够鉴定出其序列与已知黄病毒的序列有很大差异的病毒进入蛋白。他们发现了一些意想不到的联系。因此,包括丙型肝炎在内的这组病毒使用的系统感染细胞与他们在瘟病毒中发现的系统类似,瘟病毒包括经典的猪流感病毒和其他动物病原体,该病毒会导致猪出血热。

人工智能驱动的比较表明,这种输入系统与许多其他黄病毒的输入系统不同。 “对于丙型肝炎及其相关病毒,我们不知道它们的进入系统从何而来。它可能是被发明的,”格罗夫说。

被细菌偷走

预测的结构还表明,经过充分研究的寨卡病毒和登革热病毒的输入蛋白与具有巨大基因组的“奇怪而奇妙”的黄病毒具有相同的起源,其中包括可以引起人类发烧的长谷蜱病毒。另一个大惊喜是发现一些黄病毒拥有一种似乎是从细菌中窃取的酶。

澳大利亚悉尼大学的病毒学家玛丽·佩特龙 (Mary Petrone) 表示,“这将是前所未有的”,如果不是她的团队今年发现了类似的盗窃事件,一种特别“奇怪而美妙”的黄病毒物种 2。 “基因盗版在黄病毒进化中所发挥的作用可能比之前想象的更大,”她补充道。

瑞士洛桑大学的计算生物学家 David Moi 表示,黄病毒研究只是冰山一角,其他病毒甚至某些细胞生物的进化故事很可能会使用人工智能来重述。 “现在我们可以进一步研究,所有这些事情都需要进行一些更新,”他说。