Scalable Computational Methods for Genealogical Inference: from species level to single cells

用于谱系推断的可扩展计算方法:从物种水平到单细胞

基本信息

  • 批准号:
    10889303
  • 负责人:
  • 金额:
    $ 31.5万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
  • 财政年份:
    2023
  • 资助国家:
    美国
  • 起止时间:
    2023-09-01 至 2024-08-31
  • 项目状态:
    已结题

项目摘要

PROJECT SUMMARY Massive amounts of genomic data are currently being generated, providing unprecedented opportunities for biomedical researchers to characterize various biological components and processes. In order to utilize these data to make new biological discoveries and improve human health, accurate models and scalable computational tools need to be developed to facilitate analysis and interpretation. The central objective of this project is to address this challenge by developing more realistic probabilistic models, scalable algorithms, and user-friendly software tools to enable the biomedical research community to better harness large genomic data. Many prob- lems in genomics rely on computational methods for inferring genealogical information from large sequence data and interpreting the reconstructed trees. In this application, we propose to make significant strides towards im- proving this line of research by developing a suite of robust and scalable algorithms for probabilistic models of molecular evolution and genealogical inference across multiple timescales. We will achieve our goal by carrying out the following specific aims: 1) A fundamental problem in statistical analysis of molecular evolution is esti- mating model parameters, for which maximum likelihood estimation (MLE) is typically employed. Unfortunately, MLE is a computationally expensive task, in some cases prohibitively so. In Aim 1, we will utilize a novel MLE framework and modern optimization methods to develop a broadly applicable computational method that achieves several orders of magnitude speedup in MLE while maintaining high statistical efficiency for general models of molecular evolution. We will apply our tools to improve phylogenetic inference for two clin- ically important superfamilies of membrane proteins in humans, namely G protein-coupled receptors (GPCRs) and Solute carrier (SLC) transporters. 2) Because of meiotic recombination, the genetic variability within humans cannot be represented by a single tree. Instead, there are millions of different trees across the genome, where each position in the genome will tend to have its own tree that only differs minimally from the trees in nearby sites. The collection of all these trees, and the set of recombination points creating new trees, is represented by the Ancestral Recombination Graph (ARG), which has a number of applications in human genetics. Despite substantial recent progress on reconstructing ARGs, however, current methods are either too slow to scale up to large data sets, or they do not sample ARGs accurately from a well-calibrated posterior distribution. In Aim 2, will develop a new scalable computational method to improve ARG reconstruction and sampling. We will test the method extensively on simulated data, develop a number of applications, and apply it on a number of different human data sets to illustrate its utility. 3) Applications of genealogical inference methods have been rapidly growing in single-cell genomics. In particular, advances in CRISPR/Cas9 genome editing technologies have enabled lineage tracing for thousands of cells in vivo, and the problem of reconstructing trees from such data has received considerable attention recently. In Aim 3, we will develop scalable algorithms to reconstruct time-resolved single-cell trees for thousands of cells sampled at multiple time points. We will also develop a novel statistical method grounded in rigorous theory to improve fitness estimation from trees. We will apply the methods developed here to analyze single-cell lineage-tracing data from an iterative metastasis experiment to study cancer evolution, as well as B cell affinity maturation data from a highly innovative experimental design to study germinal center evolution.
项目概要 目前正在生成大量基因组数据,为研究提供了前所未有的机会 生物医学研究人员来表征各种生物成分和过程。为了利用这些 数据以做出新的生物发现并改善人类健康、准确的模型和可扩展的计算 需要开发工具来促进分析和解释。该项目的中心目标是 通过开发更现实的概率模型、可扩展的算法和用户友好的方法来应对这一挑战 软件工具使生物医学研究界能够更好地利用大型基因组数据。许多问题 基因组学中的 Lems 依靠计算方法从大序列数据中推断家谱信息 并解释重建的树木。在此应用中,我们建议在改进方面取得重大进展 通过开发一套稳健且可扩展的概率模型算法来证明这一研究方向 跨多个时间尺度的分子进化和谱系推断。我们将通过承载实现我们的目标 提出以下具体目标:1)分子进化统计分析的一个基本问题是估计 交配模型参数,通常采用最大似然估计(MLE)。很遗憾, MLE 是一项计算成本高昂的任务,在某些情况下甚至令人望而却步。在目标 1 中,我们将利用一种新颖的 MLE 框架和现代优化方法来开发一种广泛适用的计算方法 在 MLE 中实现了几个数量级的加速,同时保持了高统计效率 分子进化的一般模型。我们将应用我们的工具来改进两个临床的系统发育推断 人类膜蛋白的重要超家族,即 G 蛋白偶联受体 (GPCR) 和溶质载体(SLC)转运蛋白。 2)由于减数分裂重组,人类内部的遗传变异 不能用一棵树来表示。相反,整个基因组中有数百万种不同的树,其中 基因组中的每个位置往往都有自己的树,与附近的树只有很小的差异 网站。表示所有这些树的集合以及创建新树的重组点集 由祖先重组图(ARG)得出,它在人类遗传学中有许多应用。尽管 最近在重建 ARG 方面取得了实质性进展,然而,当前的方法要么太慢,无法扩展到 大型数据集,或者他们没有从经过良好校准的后验分布中准确地采样 ARG。在目标 2 中, 将开发一种新的可扩展计算方法来改进 ARG 重建和采样。我们 将在模拟数据上广泛测试该方法,开发许多应用程序,并将其应用于许多 不同的人类数据集来说明其实用性。 3)谱系推理方法的应用 单细胞基因组学领域迅速发展。特别是 CRISPR/Cas9 基因组编辑技术的进步 已经实现了体内数千个细胞的谱系追踪,以及从这些数据重建树的问题 最近受到了相当大的关注。在目标 3 中,我们将开发可扩展的算法来重建 在多个时间点采样的数千个细胞的时间分辨单细胞树。我们还将开发 一种基于严格理论的新颖统计方法,用于改进树木的适应度估计。我们将应用 这里开发的方法用于分析来自迭代转移实验的单细胞谱系追踪数据 通过高度创新的实验设计研究癌症进化以及 B 细胞亲和力成熟数据 研究生发中心的进化。

项目成果

期刊论文数量(2)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Exact and efficient phylodynamic simulation from arbitrarily large populations.
来自任意大群体的精确且高效的系统动力学模拟。
  • DOI:
  • 发表时间:
    2024-02-27
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Celentano, Michael;DeWitt, William S;Prillo, Sebastian;Song, Yun S
  • 通讯作者:
    Song, Yun S
ConvexML: Scalable and accurate inference of single-cell chronograms from CRISPR/Cas9 lineage tracing data.
ConvexML:根据 CRISPR/Cas9 谱系追踪数据对单细胞计时图进行可扩展且准确的推断。
  • DOI:
  • 发表时间:
    2023-12-03
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Prillo, Sebastian;Ravoor, Akshay;Yosef, Nir;Song, Yun S
  • 通讯作者:
    Song, Yun S
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Ian H Holmes其他文献

Ian H Holmes的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Ian H Holmes', 18)}}的其他基金

Web-based visualization of coronavirus genomes and proteins
基于网络的冠状病毒基因组和蛋白质可视化
  • 批准号:
    10162044
  • 财政年份:
    2020
  • 资助金额:
    $ 31.5万
  • 项目类别:
Developing the JBrowse Genome Browser to Visualize Structural Variants and Cancer Genomics Data
开发 JBrowse 基因组浏览器以可视化结构变异和癌症基因组数据
  • 批准号:
    9751259
  • 财政年份:
    2017
  • 资助金额:
    $ 31.5万
  • 项目类别:
Developing the JBrowse Genome Browser to Visualize Structural Variants and Cancer Genomics Data
开发 JBrowse 基因组浏览器以可视化结构变异和癌症基因组数据
  • 批准号:
    9524813
  • 财政年份:
    2017
  • 资助金额:
    $ 31.5万
  • 项目类别:
Developing the JBrowse Genome Browser to Visualize Structural Variants and Cancer Genomics Data
开发 JBrowse 基因组浏览器以可视化结构变异和癌症基因组数据
  • 批准号:
    9390007
  • 财政年份:
    2017
  • 资助金额:
    $ 31.5万
  • 项目类别:
Enhancement of the GBrowse Genome Annotation Browser
GBrowse 基因组注释浏览器的增强
  • 批准号:
    7681268
  • 财政年份:
    2007
  • 资助金额:
    $ 31.5万
  • 项目类别:
Apollo - Universal Infrastructure for Genome Curation
Apollo - 基因组管理的通用基础设施
  • 批准号:
    10176512
  • 财政年份:
    2007
  • 资助金额:
    $ 31.5万
  • 项目类别:
Enhancing the GMOD Suite of Genome Annotation and Visualization Tools
增强 GMOD 基因组注释和可视化工具套件
  • 批准号:
    8328945
  • 财政年份:
    2007
  • 资助金额:
    $ 31.5万
  • 项目类别:
Enhancement of the GBrowse Genome Annotation Browser
GBrowse 基因组注释浏览器的增强
  • 批准号:
    8151702
  • 财政年份:
    2007
  • 资助金额:
    $ 31.5万
  • 项目类别:
Enhancing the GMOD Suite of Genome Annotation and Visualization Tools
增强 GMOD 基因组注释和可视化工具套件
  • 批准号:
    9059444
  • 财政年份:
    2007
  • 资助金额:
    $ 31.5万
  • 项目类别:
Enhancements to the GMOD Suite of Genome Annotation and Visualization Tools
基因组注释和可视化工具 GMOD 套件的增强
  • 批准号:
    10395491
  • 财政年份:
    2007
  • 资助金额:
    $ 31.5万
  • 项目类别:

相似国自然基金

本体驱动的地址数据空间语义建模与地址匹配方法
  • 批准号:
    41901325
  • 批准年份:
    2019
  • 资助金额:
    22.0 万元
  • 项目类别:
    青年科学基金项目
时空序列驱动的神经形态视觉目标识别算法研究
  • 批准号:
    61906126
  • 批准年份:
    2019
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
针对内存攻击对象的内存安全防御技术研究
  • 批准号:
    61802432
  • 批准年份:
    2018
  • 资助金额:
    25.0 万元
  • 项目类别:
    青年科学基金项目
大容量固态硬盘地址映射表优化设计与访存优化研究
  • 批准号:
    61802133
  • 批准年份:
    2018
  • 资助金额:
    23.0 万元
  • 项目类别:
    青年科学基金项目
IP地址驱动的多径路由及流量传输控制研究
  • 批准号:
    61872252
  • 批准年份:
    2018
  • 资助金额:
    64.0 万元
  • 项目类别:
    面上项目

相似海外基金

SELENOF is a Novel Tumor Suppressor and a New Target to Overcome Racial Disparity in Breast Cancer.
SELENOF 是一种新型肿瘤抑制剂,也是克服乳腺癌种族差异的新靶点。
  • 批准号:
    10735662
  • 财政年份:
    2023
  • 资助金额:
    $ 31.5万
  • 项目类别:
A novel bioengineering approach to restoring permanent periodontal inflammatory bone loss
一种恢复永久性牙周炎性骨质流失的新型生物工程方法
  • 批准号:
    10734465
  • 财政年份:
    2023
  • 资助金额:
    $ 31.5万
  • 项目类别:
Engineered tissue arrays to streamline deimmunized DMD gene therapy vectors
工程组织阵列可简化去免疫 DMD 基因治疗载体
  • 批准号:
    10724882
  • 财政年份:
    2023
  • 资助金额:
    $ 31.5万
  • 项目类别:
Mechanical Modulation of Cell Migrations by DNA Nanoassemblies
DNA 纳米组件对细胞迁移的机械调节
  • 批准号:
    10659333
  • 财政年份:
    2023
  • 资助金额:
    $ 31.5万
  • 项目类别:
Development of Selective Oxidative Biocatalytic Methods
选择性氧化生物催化方法的发展
  • 批准号:
    10606798
  • 财政年份:
    2023
  • 资助金额:
    $ 31.5万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了