Scaling up computational genomics with tree sequences

用树序列扩展计算基因组学

基本信息

  • 批准号:
    10585745
  • 负责人:
  • 金额:
    $ 60.57万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
  • 财政年份:
    2023
  • 资助国家:
    美国
  • 起止时间:
    2023-06-05 至 2027-03-31
  • 项目状态:
    未结题

项目摘要

Project Summary/Abstract Increasing sample size is a tremendously important factor in building our understanding of the genetics of human disease. As we discover that more and more diseases have a complex web of genetic causation, we need larger and larger genetic datasets to disentangle them, and to ultimately produce successful therapies. Driven in part by this need, the community is now assembling vast collections of human genome sequences, and millions of samples will soon be commonplace. There is a profound problem, however: our computational methods for storing, processing, and analyzing genomic data are lagging far behind. The algorithms and data structures underlying today’s computational methods were designed for thousands of samples, not millions. Without fundamental change in how we store and process genomic data, we will either not fully tap the potential of the data we collect, or the computational costs will be astronomical – or both. Nonhuman datasets, with applications in epidemiology, ecology, evolution, and agriculture, may not reach these sample sizes soon, but here we nevertheless face a related barrier. Simulation is increasingly important for tasks from hypothesis generation to parameter inference. However, current simulation methods only scale to tens or hundreds of thousands of individuals, inappropriate for many species of interest (e.g., mosquitos). This is crucial, since evolution and ecology in large populations differs from small ones, in ways that cannot be avoided by mathematical tricks (like rescaling). Our proposal addresses these critical needs by focusing on a new data structure: the “tree sequence”, which encodes genetic variation data using the population genetics processes that produced the data itself, by representing variation among contemporary samples using the underlying genealogical trees. This yields extraordinary levels of data compression, with file sizes hundreds of times smaller than current community standards. Since the tree sequence was introduced in 2016 it has led to performance increases of 2–4 orders of magnitude in genome simulation, calculation of statistics, and ancestry inference. Such sudden leaps in computational performance are vanishingly rare, and only possible through deep algorithmic advances. Our research plan builds on the extraordinary successes of tree sequence methods so far, scaling up three crucial layers of computational genomics: analysis, simulation, and inference. First, we will continue our development of highly efficient tree-sequence-based methods for fundamental operations in statistical and population genetics. Second, we will scale up genome simulations by integrating tree sequence methods into complex forward-time simulations and utilizing modern, multicore processors. Third, we will combine efficient simulations and the rich information contained in the tree sequence with cutting-edge deep-learning techniques to develop new inference methods. Together, we aim to revolutionize the way we work with and learn from population genetic variation data.
项目摘要/摘要 增加样本量是建立我们对遗传学的理解的极为重要的因素 人类疾病。当我们发现越来越多的疾病具有复杂的遗传原因网络时,我们 需要越来越大的遗传数据集将其解散,并最终产生成功的疗法。 社区的部分原因是,社区正在组装大量的人类基因组序列, 数以百万计的样本很快将是司空见惯的。但是,有一个深刻的问题:我们的计算 存储,处理和分析基因组数据的方法远远落后。算法和数据 当今计算方法的基础结构是为数千个样本而不是数百万个设计设计的。 没有我们如何存储和处理基因组数据的根本变化,我们将不会完全利用 我们收集的数据的潜力,或计算成本将是天文学的。 非人类数据集以及流行病学,生态学,进化和农业的应用程序可能无法达到 这些样本量很快,但是在这里我们面临着相关的障碍。模拟越来越重要 从假设生成到参数推断的任务。但是,当前的仿真方法仅规模 对于数十或数十万个个人,不适合许多感兴趣的物种(例如蚊子)。 这是至关重要的,因为大人群中的进化和生态与小群落不同,以无法 可以通过数学技巧(例如重新制定)避免。 我们的建议通过关注新的数据结构来满足这些关键需求:“树序列”, 它使用产生数据本身的种群遗传学过程来编码遗传变异数据, 通过使用潜在的家谱树代表当代样品之间的变化。这会产生 数据压缩的非凡级别,文件尺寸比当前社区小数百倍 标准。自2016年引入树序列以来,这导致了2-4个订单的性能提高 基因组模拟,统计计算和祖先推断的幅度。如此突然跳进去 计算性能消失了罕见,只有通过深层算法的进步才有可能。 到目前为止,我们的研究计划以树序方法的非凡成功为基础 计算基因组学的关键层:分析,仿真和推论。首先,我们将继续我们的 开发高效的基于树序列的方法,用于统计和 人口遗传学。其次,我们将通过集成树序列方法来扩展基因组模拟 进入复杂的前进时间模拟并利用现代的多层处理器。第三,我们将结合 有效的仿真和树序中包含的丰富信息,深入学习 开发新推理方法的技术。我们共同旨在彻底改变我们与之合作的方式和 从人口遗传变异数据中学习。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

PETER Lochhead RALPH其他文献

PETER Lochhead RALPH的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('PETER Lochhead RALPH', 18)}}的其他基金

Scaling up computational genomics with tree sequences
用树序列扩展计算基因组学
  • 批准号:
    10471496
  • 财政年份:
    2021
  • 资助金额:
    $ 60.57万
  • 项目类别:
Geographic models of selective sweeps
选择性扫描的地理模型
  • 批准号:
    8370584
  • 财政年份:
    2011
  • 资助金额:
    $ 60.57万
  • 项目类别:
Geographic models of selective sweeps
选择性扫描的地理模型
  • 批准号:
    8198779
  • 财政年份:
    2011
  • 资助金额:
    $ 60.57万
  • 项目类别:

相似国自然基金

全球农业食品系统的生态毒理及人体健康影响研究
  • 批准号:
    52370193
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目
农业支持保护补贴对种植大户非粮化行为的影响机理与政策优化研究
  • 批准号:
    72304270
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
区域特色农业品牌对小农户生计资本与农业绿色发展的影响机制及情景模拟研究
  • 批准号:
    42301242
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
农业商业化冲击对中国近代产业发展与空间分布的影响研究
  • 批准号:
    72363003
  • 批准年份:
    2023
  • 资助金额:
    27 万元
  • 项目类别:
    地区科学基金项目
同伴压力对农民参与农业项目行为的影响:基于风险态度和模糊态度传导的实验经济学研究
  • 批准号:
    72363004
  • 批准年份:
    2023
  • 资助金额:
    27 万元
  • 项目类别:
    地区科学基金项目

相似海外基金

A Neuropeptidergic Neural Network Integrates Taste with Internal State to Modulate Feeding
神经肽能神经网络将味觉与内部状态相结合来调节进食
  • 批准号:
    10734258
  • 财政年份:
    2023
  • 资助金额:
    $ 60.57万
  • 项目类别:
Understand and mitigating the influence of extreme weather events on HIV outcomes: A global investigation
了解并减轻极端天气事件对艾滋病毒感染结果的影响:一项全球调查
  • 批准号:
    10762607
  • 财政年份:
    2023
  • 资助金额:
    $ 60.57万
  • 项目类别:
Promesa: Urban gardening and peer nutritional counseling to improve HIV care outcomes among people with food insecurity in the Dominican Republic
Promesa:城市园艺和同伴营养咨询可改善多米尼加共和国粮食不安全人群的艾滋病毒护理结果
  • 批准号:
    10698434
  • 财政年份:
    2023
  • 资助金额:
    $ 60.57万
  • 项目类别:
Understanding predictability of evolutionary trajectories
了解进化轨迹的可预测性
  • 批准号:
    10712637
  • 财政年份:
    2023
  • 资助金额:
    $ 60.57万
  • 项目类别:
Development of a rapid screening test for the detection of dihydroanatoxin-a
开发检测二氢虾毒素-a 的快速筛选试验
  • 批准号:
    10545266
  • 财政年份:
    2023
  • 资助金额:
    $ 60.57万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了