Adaptive Reproducible High-Dimensional Nonlinear Inference for Big Biological Data

生物大数据的自适应可再现高维非线性推理

基本信息

  • 批准号:
    9923688
  • 负责人:
  • 金额:
    $ 27.67万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
  • 财政年份:
    2018
  • 资助国家:
    美国
  • 起止时间:
    2018-08-01 至 2022-04-30
  • 项目状态:
    已结题

项目摘要

Big data is now ubiquitous in every field of modern scientific research. Many contemporary applications, such as the recent national microbiome initiative (NMI), greatly demand highly flexible statistical machine learning methods that can produce both interpretable and reproducible results. Thus, it is of paramount importance to identify crucial causal factors that are responsible for the response from a large number of available covariates, which can be statistically formulated as the false discovery rate (FDR) control in general high-dimensional nonlinear models. Despite the enormous applications of shotgun metagenomic studies, most existing investigations concentrate on the study of bacterial organisms. However, viruses and virus-host interactions play important roles in controlling the functions of the microbial communities. In addition, viruses have been shown to be associated with complex diseases. Yet, investigations into the roles of viruses in human diseases are significantly underdeveloped. The objective of this proposal is to develop mathematically rigorous and computationally efficient approaches to deal with highly complex big data and the applications of these approaches to solve fundamental and important biological and biomedical problems. There are four interrelated aims. In Aim 1, we will theoretically investigate the power of the recently proposed model-free knockoffs (MFK) procedure, which has been theoretically justified to control FDR in arbitrary models and arbitrary dimensions. We will also theoretically justify the robustness of MFK with respect to the misspecification of covariate distribution. These studies will lay the foundations for our developments in other aims. In Aim 2, we will develop deep learning approaches to predict viral contigs with higher accuracy, integrate our new algorithm with MFK to achieve FDR control for virus motif discovery, and investigate the power and robustness of our new procedure. In Aim 3, we will take into account the virus-host motif interactions and adapt our algorithms and theories in Aim 2 for predicting virus-host infectious interaction status. In Aim 4, we will apply the developed methods from the first three aims to analyze the shotgun metagenomics data sets in ExperimentHub to identify viruses and virus-host interactions associated with several diseases at some target FDR level. Both the algorithms and results will be disseminated through the web. The results from this study will be important for metagenomics studies under a variety of environments.
在现代科学研究的每个领域,大数据现在都无处不在。许多当代应用, 例如最近的国家微生物组计划(NMI),极大地要求高度灵活的统计机器 可以产生可解释和可重现结果的学习方法。因此,它是最重要的 重要的是确定负责大量响应的关键因果因素 可用的协变量,可以在统计上以虚假发现率(FDR)的控制在统计上 一般高维非线性模型。尽管shot弹枪宏基因组有巨大的应用 研究,大多数现有研究都集中在细菌生物的研究上。但是,病毒 病毒宿主相互作用在控制微生物群落的功能中起着重要作用。在 此外,病毒已被证明与复杂疾病有关。然而,调查 病毒在人类疾病中的作用明显不发达。该提议的目的是 开发数学上严格和计算高效的方法来处理高度复杂的大型 数据和这些方法的应用来解决基本和重要的生物学以及 生物医学问题。有四个相互关联的目标。在AIM 1中,我们将理论上研究力量 在最近提出的无模型仿制程序(MFK)程序中,理论上是合理的 在任意模型和任意维度中控制FDR。理论上我们还将证明鲁棒性合理 MFK相对于协变量分布的错误指定。这些研究将奠定基础 为了我们在其他目标方面的发展。在AIM 2中,我们将开发深度学习方法来预测病毒 具有更高精度的重叠群,将我们的新算法与MFK整合在一起,以实现病毒基序的FDR控制 发现并研究我们新程序的力量和鲁棒性。在AIM 3中,我们将接受 说明病毒宿主主题相互作用,并在AIM 2中调整我们的算法和理论以预测 病毒宿主传染性互动状态。在AIM 4中,我们将应用前三个的开发方法 旨在分析实验室中的shot弹枪宏基因组学数据集,以识别病毒和病毒宿主 在某些目标FDR水平上与几种疾病相关的相互作用。算法和结果 将通过网络传播。这项研究的结果对于宏基因组学很重要 在各种环境下的研究。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Yingying Fan其他文献

Yingying Fan的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Yingying Fan', 18)}}的其他基金

Adaptive Reproducible High-Dimensional Nonlinear Inference for Big Biological Data
生物大数据的自适应可再现高维非线性推理
  • 批准号:
    9674585
  • 财政年份:
    2018
  • 资助金额:
    $ 27.67万
  • 项目类别:
Adaptive Reproducible High-Dimensional Nonlinear Inference for Big Biological Data
生物大数据的自适应可再现高维非线性推理
  • 批准号:
    10159277
  • 财政年份:
    2018
  • 资助金额:
    $ 27.67万
  • 项目类别:
Adaptive Reproducible High-Dimensional Nonlinear Inference for Big Biological Data
生物大数据的自适应可再现高维非线性推理
  • 批准号:
    9753295
  • 财政年份:
    2018
  • 资助金额:
    $ 27.67万
  • 项目类别:

相似国自然基金

分布式非凸非光滑优化问题的凸松弛及高低阶加速算法研究
  • 批准号:
    12371308
  • 批准年份:
    2023
  • 资助金额:
    43.5 万元
  • 项目类别:
    面上项目
资源受限下集成学习算法设计与硬件实现研究
  • 批准号:
    62372198
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目
基于物理信息神经网络的电磁场快速算法研究
  • 批准号:
    52377005
  • 批准年份:
    2023
  • 资助金额:
    52 万元
  • 项目类别:
    面上项目
考虑桩-土-水耦合效应的饱和砂土变形与流动问题的SPH模型与高效算法研究
  • 批准号:
    12302257
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
面向高维不平衡数据的分类集成算法研究
  • 批准号:
    62306119
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

Revealing the role of blood microbiome in childhood asthma
揭示血液微生物组在儿童哮喘中的作用
  • 批准号:
    10590805
  • 财政年份:
    2023
  • 资助金额:
    $ 27.67万
  • 项目类别:
Understanding and using microbial conductive nanowires
了解和使用微生物导电纳米线
  • 批准号:
    10705196
  • 财政年份:
    2021
  • 资助金额:
    $ 27.67万
  • 项目类别:
Understanding and using microbial conductive nanowires
了解和使用微生物导电纳米线
  • 批准号:
    10215137
  • 财政年份:
    2021
  • 资助金额:
    $ 27.67万
  • 项目类别:
Understanding and using microbial conductive nanowires
了解和使用微生物导电纳米线
  • 批准号:
    10380101
  • 财政年份:
    2021
  • 资助金额:
    $ 27.67万
  • 项目类别:
The UCSD Microbiome and Metagenomics Center
加州大学圣地亚哥分校微生物组和宏基因组学中心
  • 批准号:
    10386327
  • 财政年份:
    2021
  • 资助金额:
    $ 27.67万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了