一个供研究人员共享危险病毒基因组的新数据库有望解决许多阻碍现有替代方案的问题。但首先必须说服研究人员使用它们。

Pathoplexus——病原体和神经丛的组合——于上个月推出,该数据库背后的科学家团队希望它能激励更多的研究人员分享对公共卫生具有重要意义的已知和新出现病毒的基因序列。

澳大利亚悉尼大学病毒学家爱德华·霍姆斯解释说,尽快共享序列对于识别新病毒和跟踪可能使其对人类更加危险的变化以及开发疫苗非常重要。

Pathoplexus 目前专注于其他数据库中未具体列出的四种病毒:克里米亚-刚果出血热病毒、苏丹埃博拉病毒、扎伊尔埃博拉病毒和西尼罗河病毒。研究小组表示,稍后将添加更多病原体。

现有的障碍

现有最大的存储库之一是美国的 GenBank,它提供对其基因组数据的不受限制的访问。但公共访问意味着,理论上,任何人都可以使用这些数据来发表科学文章,而无需承认数据所有者。这阻碍了科学家,特别是来自低收入国家的科学家快速分享他们的数据,例如在公共卫生紧急情况下。另一种存储库 GISAID 要求用户注册、承认数据所有者,并尽力与所有者合作。该数据库的开发是为了确保数据提交者的权利。

GISAID 在 COVID-19 大流行期间提供了极大帮助 受欢迎的 包含近 1700 万个来自 SARS-CoV-2(COVID-19 背后的病毒)的序列。然而,研究人员对 透明度 其治理、如何调解认可争议以及如何对其认为违反服务条款的人实施制裁。

“近年来,GISAID 引起了很多挫败感,”东京大学进化病毒学家斯皮罗斯·利特拉斯 (Spyros Lytras) 说。 “从这些经验中,科学界已经了解了我们如何做得更好。作为一个社区,我们需要重新设置,而 Pathoplexus 可能是解决方案。”

GISAID 的一位代表在一封电子邮件中表示,它与科学界有着很强的信任,并且有超过 70,000 名研究人员使用该网站。该代表表示,其治理机构和资助者的角色均在网站上介绍,自 2008 年成立以来,其使用条款并未发生变化。

建立信任

Pathoplexus 为用户提供了一些保护。例如,研究人员可以对其数据的使用方式设置限制,例如,未经他们的明确许可,数据在长达一年的时间内不能用作科学出版物的中心焦点。这应该给数据所有者足够的时间来提交有关其结果的手稿。

用户还必须在其出版物中承认数据所有者。 “我们打算建立一个社区,让研究人员相信他们的贡献会受到尊重和适当认可,”Pathoplexus 成员、总部位于南非开普敦的全球基因组流行病学公共卫生联盟运营总监杰米·索斯盖特 (Jamie Southgate) 说。

Pathoplexus 不会阻止任何违反使用条款的人访问本网站, GISAID 在极少数情况下这样做了 。 Pathoplexus 的联合创始人、瑞士巴塞尔瑞士热带和公共卫生研究所的分子流行病学家艾玛·霍德克罗夫特 (Emma Hodcroft) 解释说,该团队将与期刊联系,以确保已发布的数据按照共享方式使用。 “我们试图让条件非常明确,”她说。

“这是一个很好、聪明的解决方案,”达卡儿童健康研究基金会的分子微生物学家 Senjuti Saha 说,他支持联系出版商的做法。 “事情就应该这样。”她认为 Pathoplexus 的透明度将增加科学界的信任。

但萨哈表示,现在判断该存储库是否能解决当前的数据共享问题还为时过早。 “这是非常出色的第一步。”

用户也可能倾向于共享本地数据库中的序列。例如,在中国,研究人员更有可能在中国数据库中发布新出现病毒的序列,中国深圳中山大学的进化生物学家施芒说,他也是 Pathoplexus 的科学顾问委员会成员。但对于已建立的病毒,它们可能会使用 Pathoplexus 提供的维护良好的集合的存储库。

改善用户体验

Pathoplexus 的开发人员尝试改善用户体验,包括使上传尽可能简单。 Pathoplexus 还检查序列数据和随附信息是否有错误,并帮助将病毒组织成亚型。 “这实际上就是吸引我进入这个数据库的原因,”石说。他补充说,当前存储库中的错误序列可能会严重阻碍研究人员的工作。

到目前为止,Pathoplexus 已使用四种病毒的 GenBank 数据来填充该网站。霍德克罗夫特解释说,数千名访问者已经访问了该网站,50 名访问者创建了帐户来提交数据,但到目前为止还没有人提交序列。 “我们没想到我们一开始就有大量关于病原体的数据。”

研究其他病毒的研究人员将不得不等到数据库扩展以包含它们。为了扩张,团队需要获得长期融资。该网站目前由志愿者运营,并捐赠了计算机时间,该活动将在大约六个月后结束。霍德克罗夫特说,她目前的目标是吸引捐赠者。 “我持谨慎乐观的态度。”