微生物组构成分析的精确方法研究

结题报告

项目介绍

AI项目解读

基本信息

批准号：
61673231
项目类别：
面上项目
资助金额：
65.0万
负责人：
张学工
依托单位：
清华大学
学科分类：
F0304.系统工程理论与技术
结题年份：
2020
批准年份：
2016
项目状态：
已结题
起止时间：
2017-01-01 至2020-12-31

项目参与者：
刘莉扬；崔鸿飞；花奎；崔丽嘉；刘山松；罗东阳；李季；
关键词：
微生物组仿真建模宏基因组构成分析机器学习

项目摘要

Microbiomes are important for human health. The composition of human microbiomes is very complicated, and metagenome sequencing is a major technology for studying them. There are severe noises and biases in metagenome data. People’s knowledge on the noises and biases are still very limited, which buries many pitfalls for current methods used in microbiome composition analysis at both taxonomy levels and gene levels. And different methods for the same task may give very different results. In this project, we’ll take a systematic effort to address these questions. We’ll develop mathematical models for every major steps in microbiome sample collection, processing and metagenome sequencing, investigate factors that affect metagenome data quality, design simulation models and artificial synthetic microbial mixture models to build up benchmark datasets, and develop new methods for precision analysis of microbiome composition. And we’ll also investigate machine learning approaches for predicting the rough quantity and abundance distribution of unknown genomes from unmapped metagenome data. These study will produce more precise and reliable methods for better understanding the relation between microbiomes and human health.

生活在人体各部位的微生物组与人类健康密切相关，它们有十分复杂的物种和基因构成。宏基因组测序是当前研究微生物组构成的主要手段，但宏基因组数据中存在大量噪声和偏差，人们对这些噪声和偏差的分布特点与影响因素尚缺乏定量认识，导致当前用于物种和基因构成分析的方法存在很多缺陷，不同方法之间结果差异很大。本项目将从对微生物组样本采集、处理、建库和宏基因组测序各环节的数学建模开始，系统研究影响宏基因组数据质量的因素，设计仿真模型和人工合成微生物群落模型，建立标准数据集，基于对噪声和偏差分布的定量数学模型，研究微生物组构成分析的新的精确方法，并探索对数据中未知基因组数目和丰度的机器学习预测方法，为研究微生物组与人类健康关系提供更精确可靠的模型和方法。

结项摘要

人体各部位的微生物组是多种已知和未知的微生物构成的群落，宏基因组测序是对它们基因组的混合测序，要从中估计出各成分微生物的定量构成，有很多信息学挑战。其中一个基础挑战是，对于任何实际采样到的微生物组样本，其真实的微生物定量构成是无法得知的，宏基因组测序就是为了回答这个问题，但对这个问题回答得是否正确，没有标准答案可以检验。本项目的第一部分工作是建立尽可能接近实际数据产生过程的仿真模型，通过仿真模型产生已知答案的标准数据集，这是发展准确估计方法的基础。另一个重要挑战是，宏基因组数据中往往包含未知微生物的基因组，现有的方法都是忽略可能对应这些基因组的测序数据，只根据能比对到已知基因组上的测序数据来估算成分微生物的构成，但这种做法会带来很大的估计偏差。本项目的另一个主要工作是发展了一种统计模型和计算方法，估计宏基因组数据中包含未知基因组在内的基因组总长度，用这个总长度进行归一化能够更准确地估计各种成分基因组的含量。本项目采集了一批慢性胃炎病人的舌苔微生物组样本进行了宏基因组测序和生物信息学分析，发现了对检测胃炎向胃癌转化有早期提示作用的舌苔微生物标志物。此外，项目还发展了从宏基因组测序或基因组测序数据中高效检测重复序列的一种算法，并开发了相应的软件。