重磅:赛乐基因助力华西医院“十万例中国罕见病患者全基因组测序计划”项目

2022-05-26 16:54
2022年5月10日晚,四川大学华西医院罕见病研究院院长袁慧军教授在“生命天眼论”表型组学前沿论坛中分享了《基于基因大数据的罕见病精准诊治研究》,并介绍了华西医院“十万例中国罕见病患者全基因组测序计划”项目(GSRD-100KWCH)。
GSRD-100KWCH项目定位为:以“大样本-大数据-研究转化-智慧医疗“为轴心,建立系统化、规模化罕见病研究体系与关键技术平台,建设世界级罕见病临床诊治与研究中心。
实施过程中,该项目以”十万例中国罕见病患者全基因组测序计划”为基础,建立生物样本、高通量基因组测序、基因组数据科学、转化医学研究、项目及资源管理5大支撑平台,对应形成基础数据(罕见病队列自然人群队列)、分子机制(分子病因发病机制遗传咨询)、数据科学(数据分析,挖掘,共享)、转化研究(分子诊断,新药开发,生物治疗)、人工智能(项目管理,智慧医疗,产品开发)5大研究体系,实现“打造临床医学及大数据人工智能领域开放融合的数据高地,人才高地和前沿技术高地”。
GSRD-100KWCH项目将对100,000罕见病生物样本进行基因组测序并建立对应的变异数据库(其中包含20,000西部地区自然人群样本及这些样本的参比基因组数据库);数据管理方面,将建立高性能硬件平台及大数据支撑平台、项目数据智能体系及支持多地多组织协作的云计算/异构计算生物信息分析平台;组学分析方面,将组建规模化的生物信息分析专业技术团队,完成十万例罕见病全基因组SNV、CNV、SV及非编码区变异和变异信息注释,完成突变数据库与参比基因组数据库的开发建设;临床诊断与智能决策方面,将完成十万例罕见病例的临床基因诊断及遗传咨询工作、各临床学科重要罕见病的知识库建设,并全球协作开发基于人工智能技术的罕见病临床决策智能支持系统及精准诊疗在线分析系统;精准医学转化研究方面,将开展基于罕见病临床和基因组学大数据的分析诊断、试剂开发、新药研发、基因治疗、细胞治疗、患者服务等系列研究,开发可应用于临床疑难病罕见病精准诊断和治疗的创新技术和治疗药物。
作为项目底层支撑的基因组数据科学平台的核心工作之一是对项目产出的WGS数据进行胚系变异分析。根据GSRD-100KWCH项目规划,2022年将产出30,000套WGS,3.6PB数据,平台需具备60,000套WGS/年的分析能力;2023年将产出60,000套WGS,7.2PB数据,平台需具备120,000套WGS/年的分析能力;2024年将产出90,000套WGS、10.8PB数据,平台需具备200,000套WGS/年的分析能力。
项目测序产出的全基因组数据包含110GB碱基。根据项目团队测试,若采用传统CPU+开源软件的胚系变异分析方式,1个WGS样本的平均分析时间长达49.9小时。若按一年分析60,000个WGS样本,不停机运行也至少需要300到400台服务器同时用于分析;如果要实现每年分析200,000个WGS,则需要上千台CPU服务器。
为节省因此引起的大量计算资源及维护成本消耗,加速基因组数据分析效率,GSRD-100KWCH项目团队对国内外各种不同厂家、不同技术路线的超算生信分析方案进行了广泛调研。在比较了计算速度、准确性、结果一致性、平均成本等指标后,最终选择赛乐基因基于GPU异构加速的“BaseNumber DNA测序数据分析软件”作为解决方案。
BaseNumber DNA测序数据分析软件是由赛乐基因研发的超快速基因组数据分析工具及流程的集合。通过执行基于“CPU+GPU”异构计算环境开发的高并行算法,这些生信工具在保证与业界标准GATK best practice结果高度一致的前提下,可大幅缩短计算时间、降低用户成本。
在本次调研中,GSRD-100KWCH项目组从效率、准确性、与GATK结果一致性、结果可重复性、GPU数量对性能的影响、准确性与测序深度的关系、分析时间与测序深度的关系、能耗8个方面全面测试了BaseNumber DNA测序数据分析软件的性能。从实验结果可知, BaseNumber的分析结果与GATK高度一致,在不损失准确性的前提下可大幅提高胚系变异生信分析的效率(基于英伟达A100 GPU将WGS分析时间加速到平均12分钟,相对于CPU+开源软件方案加速近250倍),且分析时间与输入数据量十分接近完全线性关系;另外BaseNumber也避免了GATK流程中存在的随机性,可保证同一数据多次分析的结果完全一致;最后,BaseNumber在可扩展性与能耗上也表现十分优异。目前该评测的最终成果发布于bioRxiv(https://www.biorxiv.org/content/10.1101/2021.12.12.472266v1)。
近几年来,全基因组测序技术快速发展,成本迅速下降,对大型疾病和健康队列进行全面WGS测序的时机已经成熟。然而,传统的生信分析解决方案对于基因大数据的处理存在效率低、资源利用率低等缺点,很难满足该类项目的需要。赛乐基因的BaseNumber软件可大幅提高WGS胚系变异检测的效率,减少用户投入到硬件采购、维护,乃至能源消耗上的成本,十分符合大型人群队列科研项目对生信分析解决方案的需求。可以预见,赛乐基因未来将会在更多的精准医疗科研项目中发挥出重要的作用。

袁慧军教授《基于基因大数据的罕见病精准诊治研究》讲座视频:

产品和购买咨询邮箱:sales@sailegene.com

Copyright©2018-2021 赛乐基因科技(北京)有限公司
ICP:京ICP备19038036号-