基于Apache Spark的可扩展宏基因组序列组装方法研究

结题报告
项目介绍
AI项目解读

基本信息

  • 批准号:
    61802246
  • 项目类别:
    青年科学基金项目
  • 资助金额:
    26.0万
  • 负责人:
  • 依托单位:
  • 学科分类:
    F0213.生物信息计算与数字健康
  • 结题年份:
    2021
  • 批准年份:
    2018
  • 项目状态:
    已结题
  • 起止时间:
    2019-01-01 至2021-12-31

项目摘要

Under the complex biological background, the assembly of multi-species metagenomics sequence is the key to reconstruct full-length genes. However, trapped in the limitations of computational and memory resources, assembly of supersized metagenomics sequences is an insurmountable obstacle. This project develops an Apache Spark based sequence assembly method in order to realize a scalable, fast and accurate gene assembly, which include: dividing the assembly into two processes as clustering and local assembling to reduce the error rate of assembly,studying the sequence clustering method to improve the accuracy of the clustering results, and then using local assembling algorithm for each cluster to generate a set of contigs, the sequence data sets can extend to more than 1T with ensuring the time rapidity and the accuracy of the assembly; studying an applicable parameters optimization method of the above clustering and local assembling algorithm, which can automatically optimize parameters configuration and achieve better gene assembly results; studying the test and application of the proposed assembly method on cloud platform, analyzing the robustness, practicability and extensibility of the assembly method, and developing assembly software that can be directly used by users. This project will give an application-oriented metagenomics sequence assembly method, and provide a new idea for coping with the problem of "data deluge" of the miscellaneous metagenomics sequence.
复杂生物背景下,多物种混合宏基因组序列组装技术是重建全长基因的关键,但受困于计算和内存资源局限,超大规模宏基因组序列的组装是目前无法逾越的障碍。为实现可扩展、快速和准确的基因组装,本项目提出一种基于Apache Spark分布式环境的序列组装方法,包括:为了降低组装的错误率,将组装分成聚类和按类组装两个过程,研究序列聚类算法,提高聚类结果的准确性,并通过序列组装算法将上述聚类结果组装成碱基对,在保证组装速度和准确性的情况下将组装对象扩展到1T以上序列数据集;研究具有适用性的上述聚类和按类组装算法中参数的优化方法,自动地对参数配置进行优化,实现更优的基因组装结果;研究所提出的组装方法的云平台运行测试,分析组装方法的鲁棒性、实用性和可推广性,开发可以直接供用户使用的组装软件。本项目将提供一种面向实际应用的宏基因组序列组装方法,为应对错杂的宏基因组序列“数据泛滥”问题提供新思路。

结项摘要

复杂生物背景下,多物种混合宏基因组序列组装技术是重建全长基因的关键,但受困于计算和内存资源局限,超大规模宏基因组序列的组装是目前无法逾越的障碍。本项目针对宏基因组测序序列组装目前面临的复杂性和困难,从可扩展性、快速准确、适用性等方面出发,研究了多物种混合宏基因组序列组装方法,和传统组装方式不同,本项目基于Apache Sparke分布式平台,采用先聚类后组装的方法,先通过SpaRC(Spark Reads Clustering)算法对序列进行聚类,然后再将聚类结果组装成碱基对,在保证组装速度和准确性的情况下将组装对象扩展到大规模序列数据集。(一)针对SpaRC存在的问题,研究相应改进方法,提高算法的稳定性、降低算法运行时间以及提高聚类结果的准确性。提出一种基于Minimizer的序列相似性衡量方法代替SpaRC使用的k-mer衡量序列相似性,大幅度地改善了SpaRC算法对内存资源的占用;提出一种基于物种丰度的宏基因组序列全局聚类方法,将相同来源的簇重聚类为一个较大的簇,解决了短读长(reads)序列SpaRC聚类结果产生的簇较小的问题;提出一种基于长序列和短序列的宏基因组混合聚类方法,结合了短序列的高准确性和长序列的高连续性,克服了SpaRC的聚类不足问题。(二)SpaRC参数对算法影响较大,针对不同的宏基因组数据集,研究SpaRC参数优化方法。提出一种基于TPE的SpaRC算法超参数优化方法,通过减少计算任务加速寻找最优参数,达到较佳聚类效果。(三)在SpaRC聚类基础上,研究进一步组装方法和远程实验平台的开发。提出一种基于SpaRC的分布式宏基因组序列组装方法;构建了基于K8S的远程实验平台,对提出的聚类方法和组装方法进行运行测试。 测试结果表明,本项目提出的方法可行、有效,具有较强的鲁棒性和可扩展性。

项目成果

期刊论文数量(4)
专著数量(0)
科研奖励数量(0)
会议论文数量(5)
专利数量(1)
Deconvolute individual genomes from metagenome sequences through short read clustering
通过短读聚类对宏基因组序列中的个体基因组进行解卷积
  • DOI:
    10.7717/peerj.8966
  • 发表时间:
    2020-04
  • 期刊:
    PeerJ
  • 影响因子:
    2.7
  • 作者:
    Kexue Li;Yakang Lu;Li Deng;Lili Wang;Lizhen Shi;Zhong Wang
  • 通讯作者:
    Zhong Wang
基于TPE的SpaRC算法超参数优化方法
  • DOI:
    --
  • 发表时间:
    2021
  • 期刊:
    计算机科学
  • 影响因子:
    --
  • 作者:
    邓丽;武金达;李科学;卢亚康
  • 通讯作者:
    卢亚康
A Trust-Driven Contract Incentive Scheme for Mobile Crowd-Sensing Networks
移动群智感知网络的信任驱动合约激励方案
  • DOI:
    10.1109/tvt.2021.3117696
  • 发表时间:
    2022-02-01
  • 期刊:
    IEEE TRANSACTIONS ON VEHICULAR TECHNOLOGY
  • 影响因子:
    6.8
  • 作者:
    Dai, Minghui;Su, Zhou;Lu, Ning
  • 通讯作者:
    Lu, Ning
A local dynamic extreme learning machine based iterative learning control of nonlinear batch process
基于局部动态极限学习机的非线性批处理迭代学习控制
  • DOI:
    10.1002/oca.2788
  • 发表时间:
    2022
  • 期刊:
    Optimal Control Applications and Methods
  • 影响因子:
    1.8
  • 作者:
    Chengyu Zhou;Li Jia
  • 通讯作者:
    Li Jia

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--"}}
  • 发表时间:
    {{ item.publish_year || "--" }}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--"}}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ patent.updateTime }}

其他文献

黎曼流型上半线性薛定鄂方程的边界可控性
  • DOI:
    --
  • 发表时间:
    --
  • 期刊:
    Journal of Mathematical Analysis and Applications
  • 影响因子:
    1.3
  • 作者:
    邓丽;姚鹏飞
  • 通讯作者:
    姚鹏飞
基于组合相似性的视频检索
  • DOI:
    --
  • 发表时间:
    2007
  • 期刊:
    电子与信息学报
  • 影响因子:
    --
  • 作者:
    邓丽;金立左;费树岷
  • 通讯作者:
    费树岷
随机利率下带注资的对偶模型最优分红问题
  • DOI:
    --
  • 发表时间:
    2020
  • 期刊:
    华南师范大学学报
  • 影响因子:
    --
  • 作者:
    邓丽;郑华;彭小飞
  • 通讯作者:
    彭小飞
基于双边市场多归属结构的SDN资源管理机制
  • DOI:
    --
  • 发表时间:
    2014
  • 期刊:
    电信科学
  • 影响因子:
    --
  • 作者:
    邓丽;戴国伟;王伟明;兰巨龙
  • 通讯作者:
    兰巨龙
基于记忆窗口与参照效用的多产品动态定价
  • DOI:
    --
  • 发表时间:
    2016
  • 期刊:
    系统工程
  • 影响因子:
    --
  • 作者:
    刘海英;罗新星;邓丽
  • 通讯作者:
    邓丽

其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--" }}
  • 发表时间:
    {{ item.publish_year || "--"}}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--" }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}
empty
内容获取失败,请点击重试
重试联系客服
title开始分析
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:

AI项目思路

AI技术路线图

相似国自然基金

{{ item.name }}
  • 批准号:
    {{ item.ratify_no }}
  • 批准年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}

相似海外基金

{{ item.name }}
{{ item.translate_name }}
  • 批准号:
    {{ item.ratify_no }}
  • 财政年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了

AI项目解读示例

课题项目:调控A型流感病毒诱导IFN-β表达的机制研究

AI项目摘要:

本研究聚焦于TRIM2蛋白在A型流感病毒诱导的IFN-β表达中的调控机制。A型流感病毒是全球性健康问题,其感染可导致严重的呼吸道疾病。IFN-β作为关键的抗病毒因子,其表达水平对抗病毒防御至关重要。然而,TRIM2如何调控IFN-β的表达尚未明确。本研究假设TRIM2通过与病毒RNA或宿主因子相互作用,影响IFN-β的产生。我们将采用分子生物学、细胞生物学和免疫学方法,探索TRIM2与A型流感病毒诱导IFN-β表达的关系。预期结果将揭示TRIM2在抗病毒免疫反应中的作用,为开发新的抗病毒策略提供理论基础。该研究对理解宿主抗病毒机制具有重要科学意义,并可能对临床治疗流感病毒感染提供新的视角。

AI项目思路:

科学问题:TRIM2如何调控A型流感病毒诱导的IFN-β表达?
前期研究:已有研究表明TRIM2参与抗病毒反应,但其具体机制尚不明确。
研究创新点:本研究将深入探讨TRIM2在IFN-β表达中的直接作用机制。
技术路线:包括病毒学、分子生物学、细胞培养和免疫检测技术。
关键技术:TRIM2与病毒RNA的相互作用分析,IFN-β启动子活性检测。
实验模型:使用A型流感病毒感染的细胞模型进行研究。

AI技术路线图

        graph TD
          A[研究起始] --> B[文献回顾与假设提出]
          B --> C[实验设计与方法学准备]
          C --> D[A型流感病毒感染模型建立]
          D --> E[TRIM2与病毒RNA相互作用分析]
          E --> F[TRIM2对IFN-β启动子活性的影响]
          F --> G[IFN-β表达水平测定]
          G --> H[TRIM2功能丧失与获得研究]
          H --> I[数据收集与分析]
          I --> J[结果解释与科学验证]
          J --> K[研究结论与未来方向]
          K --> L[研究结束]
      
关闭
close
客服二维码