通过云计算的正确方法,人类基因组社区将为研究人员在许多领域对抗大数据铺平道路。

谷歌云服务是研究人员分析大型遗传数据集的工具之一。

资料来源:美国按键音-ZUM

以前,人类基因组研究人员总是被获取大量数据集的挑战所阻碍。今年年初,当研究人员看到最初的主要路障消失时,研究领域为此欢呼雀跃。今年3月,美国国家卫生研究院(NIH)自2007年起禁止使用云计算存储和分析其清单中的数百万人类基因组和其他遗传信息,其中包括基因型和表型数据。

在量入为出的基础上,云服务可以为客户提供大规模存储和计算能力。由于这些服务可以在互联网上获得,并且大量用户可以共享硬件,许多资助机构担心客户对基因组信息的使用会威胁到样本提供商的私人信息。国家卫生研究院态度的转变部分是由于解决人类基因组研究挑战的呼声越来越高。获取大数据集的挑战阻碍了科学家的科研能力,特别是那些在原始工作基础上复制和建立的科研工作。

为了充分发挥云计算的潜力,加拿大多伦多安大略癌症研究所信息学和生物计算部主任林肯·斯坦(Lincoln D. Stein)和他的同事最近在《自然》杂志上发表了一篇论文,敦促美国国立卫生研究院和其他机构为存储的最流行的主要基因数据集付费。通过这种方式,数以千万计的研究人员不会浪费时间和金钱将数据从存储库独立传输到他们选择的云,并且授权的科学家可以在需要时轻松而经济地访问全球云共享。

海量数据

由于测序技术的快速发展,提交给公共档案馆的基因组数据量现已达到数百亿字节。例如,在国际癌症基因组学会(ICGC),来自17个国家的团队在短短5年内已经积累了超过2PB的数据集——相当于大约50万张光盘。

使用普通的大学互联网连接需要15个多月才能将如此大的数据集从存储库转移到研究员本地连接的计算机网络。除了处理数据,仅存储所需的硬件就要花费大约100万美元。

云服务提供了“灵活性”,这意味着研究人员可以根据需要用尽可能多的计算机快速完成分析,并且只需支付所用的计算时间。通过分析由研究人员笔记本电脑终端控制的基于云的虚拟计算机,几位研究人员可以轻松地并行工作并共享数据和方法。因此,过去需要几个月才能完成的大规模基因组数据分析,现在可以在几天或几周内解决。

最近,云服务已经变得和大多数学术数据中心一样安全,而且通常比后者更安全。目前,相关服务由大型商业公司提供,包括亚马逊、谷歌和微软,而较小的公司专注于基因组研究,如加利福尼亚的Annai系统,以及几个学术机构,如英国Cinxton的欧洲生物信息研究所。这些服务提供商使用强加密(如防火墙和密钥链)来管理数据和系统,从而控制谁可以访问数据,并为数据所有者提供工具来密切监控相关使用情况。

然而,一些主要的人类基因组研究资助机构对此非常谨慎。例如,一些欧盟资助机构建议研究人员遵守欧盟隐私法,将基因组数据置于这些机构的管辖之下。然而,随着云计算的经济性、灵活性、可靠性和安全性达到今天的水平,Stein等人预计在未来几个月内,相关交易将大规模转向云服务,他们也支持NIH加快这一转变的决定。

斯坦等人指出,现在,在降低研究成本的同时,是时候建立机制和实践来最大化云计算的效率和利用率了。

频道控制

为了获得人类基因组和其他存储在中央数据库(如德国生物技术数据库或欧洲基因组档案库(EGA))中的数据,研究人员必须获得数据采集委员会的批准。目前,如果两个独立的研究团队想要使用同一套私有云或商业云的数据,他们需要分别获得相关的发展援助委员会的批准,才能将数据复制到互联网上并存储在他们选择的云中。

两个团队都需要等待数据被复制,当数据被复制时,只要他们需要数据,每个团队都需要为相应的存储付费。随着数以千万计的研究团队开始做同样的事情,这个过程将浪费研究人员数年的时间和纳税人数亿美元。即使云服务可以不受限制地获得,目前大多数团队利用大规模公共基因组数据集仍然是不切实际的,因为将数据从存储库转移到云中需要花费大量的时间和成本。

一个好的解决方案是要求相关的资助机构能够获得上传到最流行的学术云和商业云的每一个主要基因数据集,并为这些数据在云中的长期存储付费。这样,数据只需复制一次,研究人员只需支付分析期间的临时存储费用。

目前,一些云服务提供商正在提供免费的研究数据集存储,或者鼓励更多的研究人员在高额补贴的基础上使用他们的服务。例如,Amazon.com对千基因组计划发布的测序结果不收取任何费用。千基因组计划是一个计算人类基因变异的国际项目,目前总数据量超过200兆字节。Annai系统存储了不断增长的ICGC数据集的子集。

Stein等人设想,像dbGaP或EGA这样的实体将继续充当主要的数据保管人,他们的数据中心仍将审核和授权云中数据的使用。这样,基因组云计算甚至可以产生微观经济现象。例如,一位为云贡献了宝贵数据集的基因生物学家将在处理过程中获得积分。同样,如果一个计算机科学家贡献了一个软件包,使得其他遗传学家能够更有效地发现癌症突变,那么每次有人使用这个软件包时,他都会得到积分。

遗传标准

“人类基因组社区也为其他领域的研究人员抗击数据过载铺平了道路。”随着时间的发展,会有一个良性循环。融合大数据集的能力将允许研究人员将罕见的基因变异与疾病联系起来,而类似的成功将鼓励其他人存储更多数据集,并促进更强大软件的开发。这种机制也可以与资助机构将一些数据集存储在特定云中的要求相结合。

当云服务占据主导地位时,一个可能的风险是,单一云服务提供商可能会控制价格,从而对科学的实施产生微妙的影响。为了防止这种可能性,资助机构应该在多个云中存储同等重要的数据集。这也将有助于解决管辖权问题。例如,基因组数据起源于欧洲,因此被限制存储在欧洲的云中。

斯坦等人指出,实现这一愿景需要工作、技术和法律。例如,目前,对于囊性纤维化研究人员来说,没有办法编写软件来搜索dbGAP数据库,以便从相关疾病人群中找到获得的基因序列。然而,系统地标记这些数据,例如,特别是标记样本组织的来源,有助于解决这个问题。自2001年以来,期刊出版商同意接收核糖核酸微阵列的研究成果。这项研究需要用微阵列实验标准的“最小信息量”来描述其数据。基因组数据也是如此。

在法律层面,必须建立相应的规则,以明确使用基于云的基因组数据的资助机构、数据保管人、云服务提供商和研究人员的角色和责任。例如,如果有人将ICGC基因传给脸书,谁应该对这些参与者负责?幸运的是,在过去的两年里,全球基因组学和健康联盟制定了一个规范,即负责人共享基因组和相关健康数据的框架。

与此同时,国家癌症研究所还建立了几个试点项目,探索共享和分析云基因组数据的实际活动。国家卫生研究院和其他资助机构也开始讨论“生物医学共享”的各种概念。其中一些概念包括:通过正确的方法进行云计算,人类基因组社区将为研究人员在许多领域对抗大数据铺平道路。