大规模基因组特征分析方法
葛健秋; 孟金涛; 郭宁; 魏彦杰; 王丙强
2017
会议日期2017
会议地点合肥
英文摘要随着测序技术的发展,基因数据正以爆发式的速度疯狂增长,海量基因组数据的组装、纠错等已成为生 物信息学的研究难题。针对基因组数据的预分析也是其中重要的一步,目前基于 k-mer 频率统计的基因组特征 分析工具大都基于单节点小内存机器而设计,在 GB 级数据处理中也都有不错的性能,但当数据规模扩展为 TB 乃至 PB 级时,性能都会急剧下降。因此设计面向 TB-PB 级基因组数据的特征分析工具,对大规模基因组 数据组装、测序数据的纠错、多序列比对等都有着十分重要的意义。本文提出了一种高可扩展的基因组特征分 析方法 ESCounter,该方法能对 TB 级基因数据进行高速分析。实验结果显示 ESCounter 在 Mira 超级计算机上 处理 2TB 人类基因组模拟数据(distinct kmer 达到 2000 亿)、程序扩展到 8192 核时仅仅花了 578 秒就完成了 整个统计工作。
语种中文
内容类型会议论文
源URL[http://ir.siat.ac.cn:8080/handle/172644/12644]  
专题深圳先进技术研究院_数字所
作者单位2017
推荐引用方式
GB/T 7714
葛健秋,孟金涛,郭宁,等. 大规模基因组特征分析方法[C]. 见:. 合肥. 2017.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace