华大基因年内登上“云”端

【字体: 时间:2011年08月03日 来源:深圳特区报

编辑推荐:

  2011年7月26日,国际权威期刊《自然》杂志以《基因组学巨头提供数据服务》为题,报道了全球最大的基因组测序机构之一华大基因正展望于云计算,在全球引起广泛关注。

  

2011年7月26日,国际权威期刊《自然》杂志以《基因组学巨头提供数据服务》为题,报道了全球最大的基因组测序机构之一华大基因正展望于云计算,在全球引起广泛关注。

记者昨天获悉,华大基因宣布将在今年计划推出生物云计算服务,希望通过产品创新,更好地满足各大科研机构及生命科技行业对信息能力的需求。届时用户可以通过互联网远程操作进行测序数据的处理,随时随地获取生物信息分析资源。

“高性能计算”支撑华大整体发展

《基因组学巨头提供数据服务》报道指出,由于DNA测序技术成本的下降幅度远远高于测序数据存储成本,云计算已成为基因组学研究领域中的一个日趋重要的工具或服务。目前一般的研究实验室均缺乏存储、计算资源和处理当前庞大基因组数据的技术,华大基因提供的云计算服务将为此难题提供一个解决方案。就目前而言,华大基因的云计算服务主要应用于全基因组组装。在未来,可提供其他生物信息分析软件,如搜寻基因组中的单核苷酸多态性位点,寻找基因组中重复或缺失的大片段等。华大基因虽然并非唯一一个开展云计算服务的测序中心,但他们将测序服务与内部云计算相结合,突出了其“一站式”服务的优势。前不久,华大基因信息生产中心荣获由国际数据公司在2011国际超级计算机大会公布的首届“高性能计算创新优秀奖”,寓意着华大基因高性能计算和应用能力已经处于国际先进水平,引领国内生物领域高性能计算的行业发展。

“高性能计算”具有高效能

华大基因研究院通过自身的努力不断提升其高性能计算能力,为基因组学研究带来创新解决方案,在加快基因组学相关科学研究进展和商业化发展的同时大大提高经济效益。

他们通过软件优化和使用通用服务器代替性价比较低的小型计算机,在硬件成本、数据存储和分析能力方面取得突破性的成果,硬件成本可节约10倍以上。例如高性能计算在并行拼接的应用,由于拼接对内存和机器本身的要求非常高,而同类型机器的价格较为昂贵,华大基因通过优化软件将机器成本节约近一半。他们还通过软件优化提升机器性能,普遍提高6至10倍性能并减少约十分之一的运营成本,使庞大数据的分析时间可缩短至数天或数小时。

华大基因的高性能计算应用研发涵盖了应用软件、系统软件和云计算3个领域。在计算软件方面,华大基因不断开发新的算法,紧密跟踪图形处理器计算等先进技术,在提高计算能力的同时降低功耗,力图做到绿色高效能计算。他们与世界上最大的GPU生产商英伟达成立了联合创新实验室,积极推进创新软件开发,目前正在研发的一系列计算软件,其性能都有数量级的提高。系统软件方面,正在研究一系列的面向大规模数据和计算的中间件和管理系统。通过云计算技术,将生物信息学特有的海量数据和计算结合起来,形成了具有特色的生物信息云计算平台。

生物技术研究发展史上的里程碑

随着在基因组学研究中分析处理的数据量的迅猛飙升华大基因与众多生物企业和科研机构存在着强大的存储和分析需求。他们在高性能计算软硬件系统上加大了各种资源的投入,建立了具有自己特色的云计算系统以及相应的运行、管理和研发队伍。

华大基因目前拥有的测序能力相当于一天可以获得130人的基因组数据,每天新增原始数据就有近10T之多。华大基因每天测序数据产出量从早期的500G到现今的10T,海量数据对存储、计算机性能等方面以每12至18个月10倍的增长速度,带来巨大的挑战。

为支撑华大基因各重大科研项目和各个产业体系的发展,华大基因信息生产中心不断地在高性能计算领域内开发可以解决生物信息产生的海量数据方面的硬件和分析软件。华大基因目前在深圳、香港、北京、杭州和武汉拥有数个大型生物信息学超级计算机,其中,位于深圳和香港的集群的峰值计算能力分列国内生物信息领域第一和第二位,该集群已成为国内乃至国际生物信息学界新的性能标杆和生物技术研究发展史上的一个新的里程碑。

上周出版(7月28日)的Nature杂志以“Genome  giant  offers  data  service”为题,报道了深圳华大基因在基因组测序服务技术上的新进展:华大基因宣布将在今年计划推出生物云计算服务,希望通过产品创新,更好地满足各大科研机构及生命科技行业对信息能力的需求。届时用户可以通过互联网远程操作进行测序数据的处理,随时随地获取生物信息分析资源。  

据报道,由于DNA测序技术成本的下降幅度远远高于测序数据存储成本,云计算已成为基因组学研究领域中的一个日趋重要的工具或服务。目前一般的研究实验室均缺乏存储、计算资源和处理当前庞大基因组数据的技术,华大基因提供的云计算服务将为此难题提供一个解决方案。就目前而言,华大基因的云计算服务主要应用于全基因组组装。  

在未来,可提供其他生物信息分析软件,如搜寻基因组中的单核苷酸多态性位点,寻找基因组中重复或缺失的大片段等。在国际上,华大基因并不是唯一一个开展云计算服务的测序中心,但华大基因将测序服务与内部云计算相结合,突出了其“一站式”服务的优势。

除此之外,近期华大基因还接连在多份重要期刊上发表了新成果,比如研究人员采用新一代测序技术获得的全基因组组装的短片段构建了一个亚洲人和一个非洲人详尽的结构变异图谱,为人类基因组结构变异检测提供了一种新方法——基于全基因组组装的结构变异检测,该方法与其他检测方法相比具有性价比高、速度快等优点。据称,该方法可检测到1-50kbp范围内不同长度的结构变异,包括插入、缺失、倒置、基因重排等。  

在这个研究中,研究人员在亚洲人和非洲人的个人基因组组装区域共检测到27万多个结构变异,并对这些变异进行了验证,结果表明,该方法具有高准确度的特点。同时,研究人员还对这些结构变异的特性和生物学作用相关方面进行了研究。为了推断结构变异在人群中的频率分布,研究人员对106个“千人基因组计划”(1000    Genomes    Project)中的个体进行了基因组结构变异的统计,发现与SNPs相比,SVs一般呈现出更强的负向选择,证明其比SNPs具有更强的个体特异性。SVs的高度特异性将有助于研究人员进行人类表型差异研究。  

华大基因的这项研究还发现,基于基因组重测序构建的相关图谱在准确度上还是会有所偏差,所以研究人员建议在以后的人类基因组研究工作中,最好能够进行基于从头组装的全基因组研究,这样会使研究结果更加准确及可靠,尤其是医学基因组及相关领域的研究。

 

2011年7月26日,据国际权威期刊《自然》杂志上的新闻《基因组学巨头提供数据服务》(“Genome  giant  offers  data  service”)报道,全球最大的基因组测序机构之一——华大基因正展望于云计算。华大基因宣布将在今年计划推出生物云计算服务,希望通过产品创新,更好的满足各大科研机构及生命科技行业对信息能力的需求。届时用户可以通过互联网远程操作进行测序数据的处理,随时随地获取生物信息分析资源。该报道中提及,由于DNA测序技术成本的下降幅度远远高于测序数据存储成本,云计算已成为基因组学研究领域中的一个日趋重要的工具或服务。目前一般的研究实验室均缺乏存储、计算资源和处理当前庞大基因组数据的技术,华大基因提供的云计算服务将为此难题提供一个解决方案。就目前而言,华大基因的云计算服务主要应用于全基因组组装。在未来,可提供其他生物信息分析软件,如搜寻基因组中的单核苷酸多态性位点,寻找基因组中重复或缺失的大片段等。在国际上,华大基因并不是唯一一个开展云计算服务的测序中心,但华大基因将测序服务与内部云计算相结合,突出了其“一站式”服务的优势。

与此同时,华大基因信息生产中心在6月20日荣获由国际数据公司(International  Data  Corporation,IDC)在2011国际超级计算机大会(International  Supercomputing  Conference,ISC11)公布的首届“高性能计算创新优秀奖”(HPC  Innovation  Excellence  Award),寓意着深圳华大基因高性能计算和应用能力已经处于国际先进水平,引领国内生物领域高性能计算的行业发展。  

话说“高性能计算”

高性能计算(High  Performance  Computing,  HPC)可以为企业、国家等创造的价值是非凡的,它是计算机科学的一个分支,主要是指从体系结构、并行算法和软件开发等方面研究开发高性能计算机的技术。目前,HPC不仅可以用于科学研究、航天国防、气象预报、石油勘探等,还可以应用于信息化、教育、企业等更广泛的领域,HPC的应用需求在深度和广度上都面临蓬勃发展。

目前,高性能计算的使用对象主要包括科研机构、研发中心、金融财务等具有大量并行运算需求的大型机构和企业应用。通过使用高性能计算能够大大提高系统性能,帮助企业机构提高生产效率,带来长远经济效益。随着分析数据量的日益巨增,更多的科研项目采用高性能计算。在现今生物领域,随着测序技术的进步和成本下降,更多的基因组学相关数据应用到生物研究分析当中。目前,大部分科研机构主要依赖于外部的高性能计算实验室,或面对大众的云计算服务平台如亚马逊、IBM、微软等。华大基因一直致力于发展高性能计算,投入高性能设备的组建,开发和优化相关分析软件,为处理海量基因组数据寻找量身定做的解决方案,并成立华大基因信息生产中心。

华大基因的高性能计算主要应用于华大基因的科研项目并支持相关产业发展。HPC作为华大基因的一个重要平台,支撑着华大基因的整体发展,在《GigaScience》杂志、国家基因库等重大发展项目中担任核心支撑角色。华大基因曾参与的多项重大科研项目,如大熊猫基因组、第一个亚洲人基因组图谱等科研项目,和其无创产前基因检测、人类白细胞抗原(HLA)高分辨基因分型等健康检测服务均是在高性能计算的支撑下,进行大量基因组数据分析,并在相对较短的分析时间内提供准确的结果。不仅如此,华大基因还通过HPC技术为其合作伙伴提供在动植物基因组学、转录组学、微生物基因组学、宏基因组学、表观组学、复杂疾病基因组学、蛋白组学、药物基因组等领域的研究支持。  

华大基因高性能计算的应用和经济效益

华大基因研究院通过自身的努力不断提升其高性能计算能力,为基因组学研究带来创新解决方案,在加快基因组学相关科学研究进展和商业化发展的同时大大提高经济效益。通过软件优化和使用通用服务器代替性价比较低的小型计算机,在硬件成本、数据存储和分析能力取得突破性的成果。相对于过去需要花高达千万美元的高性能服务机器,现只需投入千万人民币购买一台性能更好的通用服务器,硬件成本可节约10至20倍。例如高性能计算在并行拼接的应用,由于拼接对内存和机器本身的要求非常高,而同类型机器的价格较为昂贵,华大基因通过优化软件从而将机器成本节约近二分之一。不仅如此,华大基因通过软件优化提升机器性能,普遍提高六至十倍性能并减少约10分之一的运营成本,使庞大数据的分析时间可缩短至数天或数小时,大大提高时效性和工作效率,降低人力,机器和运营的成本,同时也更有利于高性能计算的普及和推广。

华大基因的HPC应用研发涵盖了应用软件、系统软件和云计算三个领域。在计算软件方面,华大基因不断开发新的算法,紧密跟踪图形处理器(Graphics  processing  unit,GPU)计算等先进技术,在提高计算能力的同时降低功耗,力图做到绿色高效能计算。华大基因与世界上最大的GPU生产商英伟达(NVIDIA)成立了联合创新实验室,积极推进创新软件开发,目前正在研发的一系列计算软件,其性能都有数量级的提高。系统软件方面,正在研究一系列的面向大规模数据和计算的中间件和管理系统。通过云计算技术,将生物信息学特有的海量数据和计算结合起来,形成了具有特色的生物信息云计算平台,在不久的将来就会开放给全球科研人员。

目前,华大基因信息生产中心已开发20多种创新产品和服务,其中包括:生物信息分析平台—BGICloud,生物信息分析虚拟机BGI  vLab,生物数据库中心CLiMB。开发的生物信息学应用包括:De  Novo  sequencing(从头测序),动植物基因组组装,大规模基因组重测序,遗传关联研究,基因表达谱分析,全转录组组装,miRNA检测,CHIP-Seq研究,DNA甲基化检测,宏基因组学分析。华大基因在高性能计算方面开展多元化研究,包括GPU应用研究、大规模并行计算研究等,取得了很好的成果,并且与多个科研机构开展研究工作,其中包括香港大学、香港科技大学、香港浸会大学、中国科学院深圳先进技术研究院和中国科学院北京计算技术研究所等合作单位。

华大基因在其7月5日举办的亚太生物信息技术峰会(Bio-IT  APAC  Conference  &  Expo  2011)上发布了一系列生物信息学软件,其中包括两个基于云计算的新软件Hecate和Gaea。这两款新软件主要应用于新一代测序数据软件分析服务,为基因组从头测序和重测序提供弹性计算解决方案。华大基因的计算集群上均提供Hecate和Gaea的软件服务,使用内部集群可同时减轻网络的访问负担。Hecate是一个主要基于Hadoop平台map/reduce框架实现的分布式基因组从头测序数据并行组装软件,依赖于多集群节点的并行计算和分布式图算法能够在组装过程中对因为杂合位点和其它一些干扰因素引起的tip,tiny  repeat和bubble等结构进行有效的剪枝和去噪处理进而实现对一些常见物种数据的分布式并行组装。Hecate服务分析将大大提高降低成本和缩短所需时间。例如在单个高性能服务器上运行SOAPdenovo组装软件,花费70小时,获得80%的基因组覆盖率,硬件成本约15万美元。Hecate在使用96核的普通服务器的集群时,花费42小时,基因组覆盖率提升到84%,硬件成本可降至约6万美元。Gaea是一个基于Hadoop  streaming框架实现的分布式基因组重测序数据并行组装比对软件,可以将进行比对分析的SOAP2和BWA等算法进行并行化处理。最新版本的Gaeav1.2,相对于单核运行时间而言,在使用100核计算集群时,并行化的SOAP2和BWA速度分别提升了75倍和100倍;使用400核计算集群时,提升速度分布为300倍和346倍。在性能、速度、成本等方面不断优化。  

生物技术研究发展史上的一个新的里程碑      

面对在基因组学研究中分析处理的数据量的迅猛飙升,华大基因与众多生物企业和科研机构面临着强大的存储和分析需求。华大基因在HPC软硬件系统上加大了各种资源的投入,建立了具有自己特色的云计算系统以及相应的运行、管理和研发队伍。主要目标是以更低的成本更高效地完成大量的数据处理计算,通过云计算平台,与全世界的科研人员共享拥有的基因数据和软件系统,帮助他们更快更好地进行研究工作,促进以基因信息指导临床诊断和治疗的贯穿应用。

华大基因目前拥有的测序能力相当于一天可以获得一百三十人的基因组数据,每天新增原始数据就有近10T之多。华大基因从早期每天测序数据产出量500G到现今的10T,其产生的海量数据对存储、计算机性能等方面以每12-18个月10倍的速度在增长,带来巨大的挑战。为支撑华大基因各个产业体系的发展和各重大科研项目,华大基因信息生产中心正不断地在高性能计算领域内开发可以解决生物信息产生的海量数据方面的硬件和分析软件。华大基因与众多世界一流的IT供应商合作,采用最新的高性能设备,包括大量的超高配置节点,刀片服务器,用于完成大型生物信息分析工作。华大基因目前在在深圳、香港、北京、杭州和武汉拥有数个大型生物信息学超级计算中,存储系统超过十个PB(petabytes),总计算能力为  156Tflops,现在正向1000T  flops(即1Pflops)甚至更高的计算性能快速前进(在6月20日,ISC11发布了世界超算500强,其中名列第一的是日本超级计算机“京”,每秒计算能力超过8.774  P  flops,国家超算中心的天河一号名列第二,每秒计算能力达  2.6  P  flops)。其中,位于深圳和香港的集群的峰值计算能力分列国内生物信息领域第一和第二位,该集群已成为国内乃至国际生物信息学界新的性能标杆和生物技术研究发展史上的一个新的里程碑。

目前华大基因计算平台总内存容量已达到33TB,总存储能力已达到12PB,并将在年底达到20PB,甚至更高。在强大的计算平台上运行着一系列复杂的软件,不断揭开基因编码生命的奥秘,解答遗传密码的起源进化和基因功能表达等挑战性的问题,为人类的健康和进步提供强有力的保障。

濞戞挸顑堝ù鍥┾偓鐟邦槹瀹撳孩瀵奸敂鐐毄閻庢稒鍔掗崝鐔煎Υ婵犲洠鍋撳宕囩畺缂備礁妫滈崕顏呯閿濆牓妯嬮柟娲诲幘閵囨岸寮幍顔界暠闁肩瓔鍨虫晶鍧楁閸撲礁浠柕鍡楊儐鐢壆妲愰姀鐙€娲ゅù锝嗘礋閳ь剚淇虹换鍐╃閿濆牓妯嬮柛鎺戞閻庤姤绌遍崘顓犵闁诡喓鍔庡▓鎴︽嚒椤栨粌鈷栭柛娆愬灩楠炲洭鎯嶉弮鍌楁晙

10x Genomics闁哄倹婢橀幖顪渋sium HD 鐎殿喒鍋撻柛姘煎灠瀹曠喓绱掗崱姘姃闁告帒妫滄ご鎼佹偝閸モ晜鐣遍柛蹇嬪姀濞村棜銇愰弴鐘电煁缂佸本妞藉Λ鍧楀礆閸℃ḿ鈧粙鏁嶉敓锟�

婵炲棎鍨肩换瀣▔鐎n厽绁癟wist闁靛棗锕g粭澶愬棘椤撶偛缍侀柛鏍ㄧ墱濞堟厤RISPR缂佹稒鐩埀顒€顦伴悧鍝ヤ沪閳ь剟濡寸€n剚鏆╅悗娑欏姃閸旓拷

闁告娲滅划蹇涙嚄閻愬銈撮幖鏉戠箰閸欏棝姊婚妸銉d海閻犱焦褰冮悥锟� - 婵烇絽宕崣鍡樼閸℃鎺撶鎼达綆鍎戝☉鎾亾濞戞搩浜滃畷鐔虹磼閸℃艾鍔掗悗鍦仱閻涙瑧鎷嬮幑鎰靛悁闁告帞澧楅弳鐔煎箲椤斿灝绐涢柟璨夊倻鐟㈤柛娆樺灥椤宕犻弽顑帡寮搁敓锟�

濞戞挸顑堝ù鍥Υ婵犲嫮鐭庨柤宕囧仜閸炴挳鎽傜€n剚顏ら悹鎰╁妺缁ㄧ増鎷呭⿰鍐ㄧ€婚柡瀣姈閺岀喎鈻旈弴鐘虫毄閻庢稒鍔掗崝鐔煎Υ閿燂拷

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号