Scalable Coalescent Inference for Large Data Sets

适用于大型数据集的可扩展合并推理

基本信息

  • 批准号:
    10192760
  • 负责人:
  • 金额:
    $ 30.48万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
  • 财政年份:
    2018
  • 资助国家:
    美国
  • 起止时间:
    2018-09-05 至 2022-06-30
  • 项目状态:
    已结题

项目摘要

Mathematical and statistical modeling of gene genealogies-trees that reflect ancestral relationships among sampled molecular sequences-is central to many biological fields, including population genetics, phylodynamics of infectious disease, paleogenomics, phylogenetics, and cancer genomics. Kingman's n-coalescent is a stochastic process of gene genealogies whose parameters depend on an evolutionary model. Inference of model parameters then contributes to an understanding of the phenomena that have given rise to the sequences. Though many sophisticated methods have been developed to date, major statistical and computational challenges remain because the state space of genealogies grows superexponentially with the number of samples. We are no longer data-limited but instead, we lack computational and statistical methods for analysis of large scale emerging genomic data sets. The long-term goal of the researchers is to develop statistically consistent and computationally efficient coalescent methods for exact inference of evolutionary parameters from next-generation sequencing datasets. The objective of this research is to apply the notion of lumpability of Kingman's n-coalescent to address the state-space explosion problem of coalescent methods. The basic idea is to model a coarser resolution of the underlying genealogy and reduce the cardinality of the hidden state space. These coarser coalescent models include Tajima's coalescent and the pure-death process coalescent. The specific aims include (1) prove theorems for coalescent models and provide theoretical and practical tools for addressing computational challenges when modeling different resolutions or "lumpings" of Kingman's coalescent; (2) develop scalable methods for inference of evolutionary parameters using different coalescent models; (3) theoretically and empirically validate the inference methods, applying them in simulations and in molecular sequences from infectious diseases such as Zika, as well as ancient DNA samples from bison in North America and ancient and modern human samples; (4) implement the novel methods in open source software, ensuring fast dissemination of the methodology among researchers. The research is innovative in many distinct ways. First, Tajima's coalescent has not yet been exploited for inference despite the potential based on the smaller state space. Second, the methods developed here will allow inference from data sets that have not been exploited before because of computational limitations. Third, we will not only provide a suite of tools ready for application but we will also provide statistical results supporting our implementations. Our proposed research on scalable modeling of genealogical trees will be significant in a number eJf fields, including the theory of evolutionary trees, statistical inference in population genetics and phylogenetics, and the analysis of molecular sequences from infectious disease and ancient DNA.
基因谱系的数学和统计模型——反映样本之间祖先关系的树 分子序列——是许多生物学领域的核心,包括群体遗传学、传染病的系统动力学 疾病、古基因组学、系统发育学和癌症基因组学。 Kingman 的 n 聚结是基因的随机过程 参数取决于进化模型的谱系。模型参数的推断有助于 对引起序列的现象的理解。尽管许多复杂的方法已经被 迄今为止,由于家谱的状态空间不断增长,主要的统计和计算挑战仍然存在 与样本数量呈超指数关系。我们不再受数据限制,而是缺乏计算和 用于分析大规模新兴基因组数据集的统计方法。研究人员的长期目标是 开发统计上一致且计算高效的合并方法,以精确推断进化论 来自下一代测序数据集的参数。本研究的目的是应用以下概念 Kingman n 聚结的可集中性来解决聚结方法的状态空间爆炸问题。基本的 想法是对底层谱系进行更粗略的分辨率建模,并减少隐藏状态空间的基数。 这些较粗糙的聚结模型包括田岛聚结模型和纯死亡过程聚结模型。具体目标 包括(1)证明合并模型的定理并提供解决问题的理论和实践工具 对金曼聚结剂的不同分辨率或“集结”进行建模时的计算挑战; (2) 开发 使用不同合并模型推断进化参数的可扩展方法; (3) 理论上和 凭经验验证推理方法,将其应用于模拟和传染性分子序列 寨卡等疾病,以及来自北美野牛以及古代和现代人类的古代 DNA 样本 样品; (4) 在开源软件中实施新颖的方法,确保方法的快速传播 研究人员之中。这项研究在许多方面都具有创新性。首先,田岛的聚结剂还没有 尽管基于较小的状态空间具有潜力,但仍可用于推理。其次,这里开发的方法将 允许从由于计算限制而之前未利用过的数据集进行推断。第三,我们 我们不仅会提供一套可供应用的工具,而且还会提供支持我们的统计结果 实施。我们提出的关于家谱树可扩展建模的研究将在许多 eJf 中具有重要意义。 领域,包括进化树理论、群体遗传学和系统发育学的统计推断,以及 对传染病和古代 DNA 的分子序列进行分析。

项目成果

期刊论文数量(12)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Exact limits of inference in coalescent models.
合并模型中推理的精确限制。
  • DOI:
  • 发表时间:
    2019
  • 期刊:
  • 影响因子:
    1.4
  • 作者:
    Johndrow, James E;Palacios, Julia A
  • 通讯作者:
    Palacios, Julia A
A simple derivation of the mean of the Sackin index of tree balance under the uniform model on rooted binary labeled trees.
有根二元标记树上均匀模型下树平衡 Sackin 指数平均值的简单推导。
  • DOI:
  • 发表时间:
    2021-12
  • 期刊:
  • 影响因子:
    4.3
  • 作者:
    King, Matthew C;Rosenberg, Noah A
  • 通讯作者:
    Rosenberg, Noah A
Distance metrics for ranked evolutionary trees.
排名进化树的距离度量。
  • DOI:
  • 发表时间:
    2020-11-17
  • 期刊:
  • 影响因子:
    11.1
  • 作者:
    Kim, Jaehee;Rosenberg, Noah A;Palacios, Julia A
  • 通讯作者:
    Palacios, Julia A
The Probability of Joint Monophyly of Samples of Gene Lineages for All Species in an Arbitrary Species Tree.
任意物种树中所有物种的基因谱系样本联合单系的概率。
  • DOI:
  • 发表时间:
    2022-07
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Mehta, Rohan S;Steel, Mike;Rosenberg, Noah A
  • 通讯作者:
    Rosenberg, Noah A
Enumeration of binary trees compatible with a perfect phylogeny.
与完美系统发育兼容的二叉树枚举。
  • DOI:
  • 发表时间:
    2022-05-12
  • 期刊:
  • 影响因子:
    1.9
  • 作者:
    Palacios, Julia A;Bhaskar, Anand;Disanto, Filippo;Rosenberg, Noah A
  • 通讯作者:
    Rosenberg, Noah A
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Julia Palacios其他文献

Julia Palacios的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Julia Palacios', 18)}}的其他基金

Novel Coalescent Approaches for Studying Evolutionary Processes
研究进化过程的新联合方法
  • 批准号:
    10552480
  • 财政年份:
    2023
  • 资助金额:
    $ 30.48万
  • 项目类别:

相似国自然基金

基于深度强化学习的约束多目标群智算法及多区域热电调度应用
  • 批准号:
    62303197
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
面向二氧化碳封存的高可扩展时空并行区域分解算法及其大规模应用
  • 批准号:
    12371366
  • 批准年份:
    2023
  • 资助金额:
    43.5 万元
  • 项目类别:
    面上项目
无界区域中非局部Klein-Gordon-Schrödinger方程的保结构算法研究
  • 批准号:
    12301508
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
面向多区域单元化生产线协同调度问题的自动算法设计研究
  • 批准号:
    62303204
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
集装箱港口装卸运输区域基于碳配额碳交易的运营优化模型和算法研究
  • 批准号:
    72271152
  • 批准年份:
    2022
  • 资助金额:
    44 万元
  • 项目类别:
    面上项目

相似海外基金

A Novel Algorithm to Identify People with Undiagnosed Alzheimer's Disease and Related Dementias
一种识别未确诊阿尔茨海默病和相关痴呆症患者的新算法
  • 批准号:
    10696912
  • 财政年份:
    2023
  • 资助金额:
    $ 30.48万
  • 项目类别:
MASS: Muscle and disease in postmenopausal women
MASS:绝经后妇女的肌肉和疾病
  • 批准号:
    10736293
  • 财政年份:
    2023
  • 资助金额:
    $ 30.48万
  • 项目类别:
In vivo Evaluation of Lymph Nodes Using Quantitative Ultrasound
使用定量超声对淋巴结进行体内评估
  • 批准号:
    10737152
  • 财政年份:
    2023
  • 资助金额:
    $ 30.48万
  • 项目类别:
A breakthrough mobile phone technology that aids in early detection of COPD
突破性手机技术有助于早期发现慢性阻塞性肺病
  • 批准号:
    10760409
  • 财政年份:
    2023
  • 资助金额:
    $ 30.48万
  • 项目类别:
Incorporating residential histories into assessment of cancer risk in a predominantly low-income and racially diverse population
将居住史纳入以低收入和种族多元化为主的人群的癌症风险评估中
  • 批准号:
    10735164
  • 财政年份:
    2023
  • 资助金额:
    $ 30.48万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了