基因大数据分析的云计算实践
基因测序有着广泛的行业应用,在预防出生缺陷、检测遗传性疾病与肿瘤用药指导等领域,能提供极大帮助。近年来基因组学研究进展飞速,华大基因也凭借强大的研发实力,成为全球最大的基因组学研究中心,其研究成果在全球都有广泛的影响力。在基因组学行业迅速发展的当下,基因测序成本已实现快速下降,从过去的天价一跃进入大众也能轻松负担的“千元”时代。同时,多项杀手级临床应用均引入基因测序,拉动覆盖用户数量成倍攀
基因测序有着广泛的行业应用,在预防出生缺陷、检测遗传性疾病与肿瘤用药指导等领域,能提供极大帮助。近年来基因组学研究进展飞速,华大基因也凭借强大的研发实力,成为全球最大的基因组学研究中心,其研究成果在全球都有广泛的影响力。
在基因组学行业迅速发展的当下,基因测序成本已实现快速下降,从过去的天价一跃进入大众也能轻松负担的“千元”时代。同时,多项杀手级临床应用均引入基因测序,拉动覆盖用户数量成倍攀升。随着高通量测序仪的发展,需要存储计算的基因数据量,呈指数级增长。基因测序已进入爆发式的阶段,用户和应用量级的爆发,带来了数据计算的爆发。
随着生命科学领域数据爆炸式的增长,如何及时获取、快速分析、安全储存这些庞大的数据是研究者们急需解决的问题,包括华大基因都面临的挑战。2017年11月22日的广州云栖大会服务专场上,华大基因 BGI Online 产品总监黄泽辉,分享了华大基因在这个问题上面临的挑战与解决方案。
24小时,完成千人基因数据分析?
人一生的基因数据的管理和存储数据量相当庞大,而华大基因提供的基因快速检索和查询,涉及到基因数据在数据分析中的降维过程。过程中数据密集型和CPU密集型的计算分析任务,计算能力要求高,结果文件种类繁多,数据非结构化,不利于数据挖掘和可视化。目前使用了多地测序中心,用户分布广泛,数据共享和传输困难。
传统方案是基于大型计算设备和存储设备购买来解决,出于成本和服务器跟进速度的考量,华大基因 BGI Online 则搬到了云上,并且在分析层面上给用户定制化和个性化体验。不仅降低了数据分析门槛,用户也可直接在线上简单操作即可完成启动分析。
全面拥抱云计算,解决数据存储、传输、分析、安全问题
BGI Online作为大规模生物信息的分析平台,堪称基因行业的“应用市场”。依托部署在阿里云计算平台的服务,BGI Online更轻松地拥有了处理大规模基因组数据分析的能力。
基于BGI Online的基因数据分析需求,华大基因在阿里云平台上,设计了计算资源弹性伸缩、多级存储、海量存储计算与数据安全的云平台架构。
通过专线接入,来传输测序中心几十TB/day的数据;通过平台多数据中心部署,计算能力放至数据所在地,为美国、欧洲与中国等提供测序;混合使用阿里云的多种计算服务,数据通过OSS来互通。通过ECS在线上高灵活度地输出基因测序、利用批量计算测序可大规模降低成本、MaxCompute实现MapReduce小时级测序。
合作过程中,阿里云为华大基因提供了企业级支持服务和专家服务,保障华大基因的云上业务搭建与运转。包括指导产品选型与使用技术、提供APM报告及相应性能的分析优化;排查整改系统安全隐患、对生产高峰的任务支持进行专门保障。从曾经三四天才能输出一人基因分析,到如今实现了22小时内达成千人基因组分析的人类梦想。
生命的价值值得我们为之努力
基因组学数据是“天然”的大数据,计算分析的价值会超过测序本身,与云计算和大数据技术的结合是行业的需要。华大基因股份有限公司CEO尹烨说过,“基因测序为生物技术带来的改变,为生命创造的价值,值得我们为之努力。”
多年来,华大基因积累了来自制药、科研、临床和个人等多样且丰富的客户,对市场需求有了更深的理解。未来,华大基因将利用积累的技术与经验,继续研发不同层次结构组成,专注于生物信息分析流程开发和基因数据的挖掘的平台。未来应用应该可跨平台共享,由云计算服务持续提供底层数据存储、压缩的优化。 如此,势必能为中国在未来数十年在生命科学、生物产业提供持续增长的强劲动力。
更多推荐
所有评论(0)