一个基因信息学的云计算的例子外文翻译资料

 2022-09-19 11:16:23

英语原文共 7 页,剩余内容已隐藏,支付完成后下载完整资料


一个基因信息学的云计算的例子

Lincoln D Stein

摘要:

与数据存储和计算不同的是,现在DNA测序越来越快且越来越便宜,未来有可能将基因信息迁移到云端执行。

即将崩溃的基因信息学圈子

从1980年以来,我们非常幸运能在一个相对舒服和高效的发现和研究基因组信息的环境中工作。基因测序实验室将他们的数据提交到大的数据档案中心,比如美国国家生物技术信息中心(NCBI),欧洲分子生物学实验室(EMBL),日本DNA数据库(DDBJ),SRA数据库,GEO仓库和microarray database ArrayExpress 。这些数据库的主要责任是收集整理和分发这些测序数据。大多数用户通过这些数据库建立的网站获取信息,或者通过基因组数据的增值集成商,比如Ensembl ,UCSC Genome Browser ,Galaxy ,或者许多模式生物数据库之一。生物信息学和其他相关的研究者从这些主要的或者次一点的源头下载基因数据到他们的高性能电脑集群,用这些数据进行研究,并在不需要这些数据时将他们丢弃(图一)。

这个生态系统的整体基础是摩尔定律-一个最先由Intel的戈登·摩尔在1965年提出的形容长期的计算机发展趋势的定律。摩尔定律指出,可以放置在集成电路板的晶体管的数量大约在18个月的四件里会成倍增加。这一趋势很好的支持了35年的半导体技术和制造技术的多个变化。类似的规律在磁盘存储和网络容量中也能观察到。硬盘容量大约每年增加一倍(Kryder定律),光钎网络每发送一比特信息的成本每9个月减半一次(Butter定律)。

基因测序技术也显著提高,每消耗单位成本可以测序的碱基的数目也被以指数速度增长。然而,直到前几年,DNA测序成倍增长时间比计算机计算和存储能力的增长慢了一些。这对基因组信息系统来说非常好.档案数据库和增值基因组经销商并不需要担心运行的磁盘存储空间,因为摩尔定律让他们比世界上的基因测序实验室能更快提升自己的能力。计算生物学家并不担心没法获得充分强大的网络和计算集群。,因为他们总是稍稍领先能力增长曲线,

然而,在2000年代中期出现的“下一代”测序技术改变了这种趋势,现在威胁到传统的基因组信息系统。为了说明这一点,我最近通过互联网档案馆的保存了过去网站档案的“Wayback机器”,查看过去20年供应商的产品目录、网站和新闻稿,来观察硬盘价格和DNA测序价格的长期趋势(图二)。注意,这是一个对数图,所以指数曲线显示为直线。我没有试图在通胀因子或计算DNA测序劳动力和管理费用的成本,但趋势很明显。从1990年到2010年,每存储一字节的数据的成本每14个月减半一次,与克拉底定律是一致的。从1990年到2004年,测序的成本基本每19个月减半一次,比克拉底定律更慢。如果你正在运行一个核心的生物信息学的基因组测序中心,这对你来说是一个好消息。

然而,从2005年开始,DNA测序曲线的斜率突然增大。这对应于454测序仪的出现,紧接着又出现了Solexa/ Illumina和ABI的SOLiD的技术。从那时开始,测序的成本已每5个月半下降一次。现在基因组测序的成本下降倍数相对于存储成本的下降更快,这显示出在不远的将来DNA序列所消耗的成本将比硬盘存储的成本更低。当然,谁也不能保证这种加速的趋势会一直持续下去,但近期Illumina公司,Pacific Biosystems公司,Helicos公司和Ion Torrent公司和一些其他公司宣布在十年间保持这种趋势。

这种变化的长期趋势,推翻了支持支持现有系统的假设。现在,基因组信息系统的各个成员面临着大量的基因组数据,我们的存储系统会被这些数据塞满,这些数据也会使我们的计算集群崩溃。考虑一下这样一个统计数字:基于新一代测序技术的第一大基因组计划——千人基因组计划[25],、记录了人类的遗传变异。在项目的前6个月存入GenBankrsquo;s SRA division的原始测序数据是前三十年存入的两倍。但是千人基因组计划只是趋势变化的第一个征兆。像ENCODE[26]和modENCODE[27]项目,其中使用下一代测序的表观遗传标记的高分辨率测绘,染色质结合蛋白等功能性元素,以巨大的速度正在生成原始序列。癌症基因组项目,如The Cancer Genome Atlas和International Cancer Genome Sequencing Consortium要比千人基因组计划更大一个量级,以及各种人类微生物组项目[30,31]是有可能潜在的更大的量级。

Run for the hills

首先,我们必须面对这样一个现实。世界各地的实验室生产序列的能力比信息技术组升级他们的存储系统的能力更快、更便宜。这是一个根本存在的并且不容易解决的挑战。在未来的某个时刻,将不可能很容易的存储所有的原始测序数据到某个集中数据中心,在本地存储中读取也将会变得很困难。基因组生物学家将不得不开始表现得像高能物理学家,从庞大的数据集中筛选出极少部分有用的信息出来,然后丢弃其他数据。

尽管原始数据集不可能全部被保留,它仍将比较重要的动物,植物和生态社区的组装基因组以可以公开访问的形式保存。但规模和复杂程度也在不断的迅速增加,因为在测序成本下降,衍生物的技术,如芯片测序,DNA甲基化测序和染色质相互作用映射的成本也在下降。这些大型数据集成为了一些必须保持数据的一级和二级的基因组序列库的挑战,也成为那些习惯了作为“超级用户”下载数据到本地计算机进行分析的挑战。考虑到图1中的传统的基因组信息的系统,这是低效和浪费的几种方式。对于用数据做自己的研究的增值基因组集成商,他们必须通过Internet或者存储复制的文件从存档数据库下载到本地。“超级用户”必须做同样的事情:要么直接将数据从数据库中下载,或者从集成商之一下载。这需要在网络上反复移动相同的数据集,并在多个本地存储系统制作它们的镜像。当数据集被更新时,各反射镜必须检测到并刷新其副本。随着数据集变得越来越大,镜像和刷新的过程变得越来越繁琐,容易出错而且越来越昂贵。

一个不太明显的低效率的原因来自于数据中心,集成商和主要用户需要让本地计算集群继续满足他们的分析需求。 NCBI,UCSC和其他基因组数据提供商维护的服务器机房,通过网络将基因组数据投放出去。服务器上的负载每一个季节每天甚至每个小时都会发生波动。在任何时候,他们的计算机集群的很大一部分是闲置着等待存储数据高峰期时大的新的基因组数据存储进来,或重大的科学会议越来越接近。然而,尽管大量集群是空闲的,它仍然消耗电力而且需要系统管理人员进行护理。

生物信息学家和其他计算生物学家面临着类似的问题。他们可以建立一个集群是来满足他们的日常普通需求,或建立一个集群使它的容量满足高峰时期处理数据所需的容量。在第一种情况下,研究人员的风险是无法在合理的时间内完成平时完成不了的分析,并且有可能被竞争对手比下去。在后面一种情况下,它们会浪费金钱购买和维护他们平时他们用不到的系统能力。

这个世界上的大多数基因组数据集都存储在DVD上(未压缩的,人类基因组是大约3千兆字节),但大家都容忍了这些低效的因素。当数据集在TB级测量这些低效率的因素更加严重。

云计算能拯救现状么

最后给我们带来云计算:这是计算作为一种服务的称呼。有各种不同类型的云计算,但一个最接近计算生物学家目前的工作方式的东西取决于一个叫“虚拟机”的概念。在计算机的传统经济模式下,客户购买服务器,存储和网络硬件,计算他们的需要对机器进行配置,然后在上面运行软件。在计算作为一种服务的情况下,客户基本上是租或长或短的一段时间的硬件和存储的使用权,因为他们需要这些配置去实现自己的目标。客户只需在租用的系统运行的时候付钱,并且根据他们实际使用的存储的大小来付钱。

如果租来的机器是物理,那么这种模式将很荒唐。然而,在云计算中,租的东西是虚拟的:连接触电源线都不需要,用户可以驱动共享使用TB级存储的全功能10计算机的服务器,当需要一些大量的计算的时候在几分钟内就可以升级带100台服务器的集群,当不再需要额外的虚拟机时,然后再返回到基本的10 - 服

它的工作方式是,服务供应商提出了要保持这种规模的操作所需的所有的机器配置创造一个非常大的计算和存储场所(数以万计的节点和PB级存储),其中包括一个专门系统管理人员,存储冗余,分布在世界各地的战略地位的分布式数据中心,和宽带网络连接。然后服务提供商提供基础设施,使用户能够创建,上传并启动虚拟机。由于经济规模,服务提供商能够获得硬件,电力和网络连通性等设备的高折扣,并能将这些折扣传递到最终用户,使虚拟机租赁经济比购买实际设备更有竞争力。

虚拟机是一系列运行在主计算机(真正的硬件)上的软件,这些软件模拟真的计算机的性能:仿真器提供了一个虚拟中央处理单元(CPU),网络卡,硬盘,键盘,等等。您可以在虚拟机上运行你所选择的操作系统,通过网络登录到远端,配置这台机器是它可以运行Web服务器,数据库,负载管理软件,并行计算库,和你想要的其他任何软件。您可能熟悉虚拟机,从一些商品软件如VMware[35]到开源项目,如KVM[36]。一台物理机器可以承载多个虚拟机和运行在真实物理服务器群的软件,当有新的虚拟机请求时,整个服务器群可以智能分配。

使用虚拟机的经验是相对简单的。选择要制作,包括CPU类型,内存大小和硬盘容量的虚拟机的物理方面,指定要运行的操作系统,并开启一个或多个机器。在一两分钟,你的虚拟机就会启动并运行起来。登录到他们在网络上,并开始工作。当虚拟机未运行,你可以存储它启动硬盘的镜像。然后,您可以使用这个镜像作为模板启动多个虚拟机,这是如何在短短的几分钟内推出虚拟计算集群的方法。

基因组信息学领域,云计算的一个关键特征是服务供应商和他们的客户存储大型数据集在云中的能力。这些数据集通常需要可以添加到到虚拟机虚,拟磁盘映像作为本地硬盘和/或作为联网卷共享。例如,整个GenBank登记档案可以是(实际上是,见下文)存储在云根据需要作为装载或卸载的磁盘映像。

图3显示了基因组信息生态系统看起来可能像在云计算环境。在这里,以前,将不同的独立的数据集存储在不同的地方,然后各个团队将数据拷到他们的本地机器中以便于他们的工作,现在不这样做了,我们将大多数数据集存储在云中的虚拟磁盘和数据库。Web服务在这些数据集,包括主档案和增值的电子器件上作为云内的虚拟机运行。普通用户,谁习惯于通过网页访问在NCBI,DDBJ,ENSEMBL或者 UCSC上的数据,继续以他们习惯的方式获得数据,然后后工作;事实上,这些服务器现在位于云内,只不过用户看不见它们。

重度用户可以继续下载的数据,但他们现在有一个有吸引力的选择。与将数据移动到计算群集不同,他们将计算群集移动给数据。使用由服务提供商提供的设施,它们配置他们希望运行的软件到虚拟机中,按他们的需要的将数据拷到云上,装入含有他们所需要的公共数据集磁盘和数据库。当作业完成后,他们的虚拟集群发送它们结果,然后数据消失,直到再次需要这些数据。

云计算还创建了基因组软件开发者的新的环境,使他们能把工作放到虚拟机中去做。例如,许多基因组注释组织已经开发用于识别基因或者分类基因和其它基础功能的流程。虽然这些流程都是开源的,其他团队包装和分发这些流程来进行使用一直具有挑战性,因为有许多软件要配置其他环境以及站点特定的配置选项。在云计算环境中,这些流程可以打包成虚拟机映像和存储的方式,让任何人复制它们,运行它们并定制他们自己的需要,从而避免了安装和配置软件的复杂性。

这起作用么

云计算是真实的。最早的服务提供者,实际实现的云计算环境是亚马逊,其弹性云计算(EC2)服务[37]在2005年引入。它支持多种Linux和Windows虚拟机——一种虚拟存储系统,以及用于管理互联网协议(IP)地址的机制。亚马逊还提供了虚拟专用网络服务,允许企业用自己的计算资源,以自己的局域网扩展到亚马逊的云创造“混合”云。其他服务提供商,尤其是机架空间的云[38]和Flexiant[39]提供类似的云服务,整体功能相似但许多细节存在区别。

现在,你可以建立与亚马逊Web服务或其他商业供应商之一的帐户,你可以从大量基因或者生物信息学相关的镜像建立一个虚拟机,然后连接那几个拥有大量公有访问基因数据集的数据库。对于虚拟机镜像,可以选择与银河——用于执行许多常见的基因组分析任务的功能强大的基于Web的系统预填充的镜像,Bioconductor——使用R语言统计包集成编程环境,GBrowse——基因组浏览器,BioPerl[——一套用Perl编程语言写的全面的生物信息学模块,JCVI BioLinux云——生物信息学工具的集合,包括塞莱拉公司汇编器,以及各种其他的工具。几个专门运行在UCSC基因组浏览器的镜像正在发展中。

除了这些有用的镜像外,亚马逊还提供了几家大型基因组数据集在它的云中。其中包括GenBank中(200千兆字节)的完整副本,在30X覆盖率测序千人基因组计划(700千兆字节)和ENSEMBL的基因组数据库,其中包括人类的注释的基因组和其他50种个体的基因组(150千兆字节的注释加上100千兆字节测序数据)。Amazon的存储库的这些数据集来自于多种机构的公共数据集,这些数据集可以连接到虚拟机镜像,也只会象征性的收一下费用。

也有越来越多的基于如 Eucalyptus这样的开源云管理软件的学术云计算项目。其中一个项目是开放云联盟(Open Cloud Consortium),一批美国的大学和工业合作伙伴参与到了其中;另一种则是云计算大学的倡议,由IBM和谷歌合作的一系列学术机构的努力,还有从美国国家科学基金会的补助,以便于他们和相关社区的使用。学术云可能实际上是基因组信息比使用商业系统更好的长期解决方案,因为基因数据计算对于大数据的读写速度的需求

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[148402],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。