基于云计算平台的下一代测序数据错误修正算法研究与实现
项目介绍
AI项目解读
基本信息
- 批准号:31501070
- 项目类别:青年科学基金项目
- 资助金额:19.0万
- 负责人:
- 依托单位:
- 学科分类:C0608.生物数据资源与分析方法
- 结题年份:2018
- 批准年份:2015
- 项目状态:已结题
- 起止时间:2016-01-01 至2018-12-31
- 项目参与者:梁妍; 王艺琪; 鲁帮力;
- 关键词:
项目摘要
Next-generation sequencing data is making essential impact on the biological and biomedical studies due to its ability in discovering the relationship between genotypes and phenotypes per se. However, the data contains sequencing errors inevitably because of the bias introduced by the sequencing platforms and approaches. These errors, substitutions, insertions and deletions, pose great challenge for data analysis. Existing error correction approaches partially solve the problem by only handling small data or reduce the performance to cope with large data. To solve this problem, we propose an algorithm that can handle large dataset while keep good performance running on cloud computing platform. This algorithm smoothly combines MapReduce and overlap-layout-consensus model together, and corrects errors by a classical statistical model. The advantages of the model are in three fold: MapReduce model can handle huge volume of dataset; overlap-layout-consensus model keeps the intactness of input data and; the statistical model guarantees the good performance.
下一代测序数据正以革新化的态势影响着生命科学、医学等相关领域的研究,因其能从根本上揭示这些外在表象的内在本质。然而,由于受到测序平台、测序方法以及基因自身序列结构的影响,测序数据都或多或少存在着替换错误和插入删除错误。这些错误对后续数据分析提出了极大挑战。现有错误修正方法要么只能处理小数据,要么降低准确度来处理大规模数据。鉴于此,该课题设计一种基于云计算平台的、可处理超大规模数据集的、同时保证处理精确度的分布式并行算法。该算法把MapReduce分布式思想和overlap-layout-consensus数据处理模型有机的结合起来,同时利用统计模型修改测序错误。其主要优点体现在:MapReduce思想可以分布式并行处理超大规模数据;overlap-layout-consensus模型可以保持数据的完整型;利用统计模型修改错误碱基保证算法准确性。
结项摘要
基因组是解密生命奥秘、剖析疾病产生机制的核心要素,而获得高质量基因测序数据是实现解密的关键。现有技术能够产生大规模测序数据,但是所有测序数据都存在错误:插入、删除和替换。纠正测序错误是获得高质量测序数据的前提。本课题重在研究如何纠正测序错误,同时降低大规模测序数据对时间和空间的限制。简要来说包含三个层次:大规模测序数据的压缩存储以及快速访问技术;测序错误的修正算法;云平台下算法实现。探索数据压缩技术可以将超大规模数据对内存的依赖大大降低,甚至在普通电脑上能处理大规模测序数据;而快速访问技术可以使得大规模数据操作在极短的时间内完成,降低大规模数据对超级计算机的依赖。测序错误修正主要从统计和覆盖度角度处理,进一步提高错误修正的准确性。云平台主要承担大规模测序数据并行化探索。基于以上研究,我们发表了4篇SCI论文,其中3篇Bioinformatics(SCI一区),1篇BMC Genomics(SCI二区);以主持人身份成功申请到3项省部级自然科学基金项目;获得一项国际大会最佳论文奖。简单来说,在测序数据压缩方面,我们提出了耦合Bloom Filter用来存储计数k单体。该算法在频度为1的k单体上压缩比达到20倍,对于大于1的k单体压缩比达到8倍,综合压缩比达到16倍。对比现有最好算法,我们能将压缩比提高近3倍。除此以外,该算法对数据访问的时间复杂度为常数。在错误修正方面,我们提出了以k单体为种子重组测序读长和z-score为依据的两种测序错误修正算法。前一种算法由于考虑了位点的全覆盖能将单位点错误率从1.28%降低到0.17%;后一种算法用z-score能将覆盖度低(通常小于等于5)的k单体从假阳性数据中区分出来,实验表明该算法能将k单体纯度平均提升11.25%。在云平台方面,我们采用MapReduce策略用以分布式处理错误修正,并实现在云平台上运行的错误修正算法,能将错误修正时间线性降低。该课题对基因测序的错误修正以及时间和空间上优化算法对序列分析起到一定的促进作用,为下游数据分析提供了更多选择。
项目成果
期刊论文数量(4)
专著数量(0)
科研奖励数量(1)
会议论文数量(0)
专利数量(0)
MapReduce for accurate error correction of next-generation sequencing data
MapReduce 用于下一代测序数据的精确纠错
- DOI:10.1093/bioinformatics/btx089
- 发表时间:2017-12
- 期刊:Bioinformatics
- 影响因子:5.8
- 作者:Zhao Liang;Chen Qingfeng;Li Wencui;Jiang Peng;Wong Limsoon;Li Jinyan
- 通讯作者:Li Jinyan
Mining statistically-solid k-mers for accurate NGS error correction
挖掘统计可靠的 k 聚体以进行准确的 NGS 纠错
- DOI:10.1186/s12864-018-5272-y
- 发表时间:2018-12
- 期刊:BMC Genomics
- 影响因子:4.4
- 作者:Liang Zhao;Jin Xie;Lin Bai;Wen Chen;Mingju Wang;Zhonglei Zhang;Yiqi Wang;Zhe Zhao;Jinyan Li
- 通讯作者:Jinyan Li
Novel overlapping subgraph clustering for the detection of antigen epitopes
用于检测抗原表位的新型重叠子图聚类
- DOI:10.1093/bioinformatics/bty051
- 发表时间:2018-06
- 期刊:Bioinformatics
- 影响因子:5.8
- 作者:Zhao Liang;Wu Shaogui;Jiang Jiawen;Li Wencui;Luo Jie;Li Jinyan
- 通讯作者:Li Jinyan
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--"}}
- 发表时间:{{ item.publish_year || "--" }}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--"}}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ patent.updateTime }}
其他文献
Local Minimum Energy of LBP Algorithm Concrete CT Image Segmentation
LBP算法混凝土CT图像分割的局部最小能量
- DOI:10.14257/ijsip.2014.7.4.17
- 发表时间:2014-08
- 期刊:International Journal of Signal Processing, Image Processing and Pattern Recognition
- 影响因子:--
- 作者:赵亮;鲁君;徐胜军
- 通讯作者:徐胜军
基于Ergun方程的菱镁球团填充床层阻力特性实验
- DOI:10.12068/j.issn.1005-3026.2021.03.007
- 发表时间:2021
- 期刊:东北大学学报. 自然科学版
- 影响因子:--
- 作者:张晟;张晓虎;赵亮;董辉
- 通讯作者:董辉
PTAOD: A Novel Framework for Supporting Approximate Outlier Detection Over Streaming Data for Edge Computing
PTAOD:一种支持边缘计算流数据近似异常值检测的新型框架
- DOI:10.1109/access.2019.2962066
- 发表时间:2020
- 期刊:IEEE ACCESS
- 影响因子:3.9
- 作者:朱睿;于甜甜;谭志远;杜威;赵亮;李佳佳;夏秀峰
- 通讯作者:夏秀峰
考虑驱动和负载状态的三自由度超声电机接触模型研究
- DOI:10.13465/j.cnki.jvs.2021.03.023
- 发表时间:2021
- 期刊:振动与冲击
- 影响因子:--
- 作者:李争;赵亮;郭鹏;于絮泽
- 通讯作者:于絮泽
基于霍夫变换的工位点识别算法设计与实现
- DOI:10.16667/j.issn.2095-1302.2016.08.002
- 发表时间:2016
- 期刊:物联网技术
- 影响因子:--
- 作者:仲崇权;赵亮
- 通讯作者:赵亮
其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--" }}
- 发表时间:{{ item.publish_year || "--"}}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--" }}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
内容获取失败,请点击重试
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:
AI项目摘要
AI项目思路
AI技术路线图
请为本次AI项目解读的内容对您的实用性打分
非常不实用
非常实用
1
2
3
4
5
6
7
8
9
10
您认为此功能如何分析更能满足您的需求,请填写您的反馈:
赵亮的其他基金
低复杂度家系突变检测促进室间隔缺损多粒度关联基因挖掘
- 批准号:
- 批准年份:2020
- 资助金额:35 万元
- 项目类别:地区科学基金项目
相似国自然基金
{{ item.name }}
- 批准号:{{ item.ratify_no }}
- 批准年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}
相似海外基金
{{
item.name }}
{{ item.translate_name }}
- 批准号:{{ item.ratify_no }}
- 财政年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}