Scaling up computational genomics with tree sequences
用树序列扩展计算基因组学
基本信息
- 批准号:10585745
- 负责人:
- 金额:$ 60.57万
- 依托单位:
- 依托单位国家:美国
- 项目类别:
- 财政年份:2023
- 资助国家:美国
- 起止时间:2023-06-05 至 2027-03-31
- 项目状态:未结题
- 来源:
- 关键词:AddressAffectAgricultureAlgorithmsArchitectureAreaAstronomyBase SequenceCollectionCommunitiesComplexComputer softwareComputing MethodologiesCulicidaeDataData CompressionData SetDevelopmentDiseaseEcologyEnsureEpidemiologyEtiologyEvolutionGenealogical TreeGenerationsGeneticGenetic ProcessesGenetic RecombinationGenetic VariationGenomeGenomicsGenotypeGoalsHaplotypesHealth BenefitHistorical DemographyHuman GeneticsHuman GenomeIndividualInternetLearningLibrariesMapsMathematicsMethodsModelingModernizationMutationPerformancePhasePhenotypePopulationPopulation GeneticsPopulation SizesPositioning AttributeProcessProductionRecordsResearchRunningSample SizeSamplingStatistical Data InterpretationStructureTechniquesTestingTimeTrainingTreesValidationVariantWorkalgorithm developmentcomputer frameworkcostdata formatdata structuredeep learningdesignfrontiergenome-widegenomic datahuman diseaseimprovedinterestinteroperabilitylearning strategymembermulticore processornext generationnovel strategiesopen sourceoperationscale upsequence learningsimulationstatisticssuccesssupervised learningwhole genome
项目摘要
Project Summary/Abstract
Increasing sample size is a tremendously important factor in building our understanding of the genetics of
human disease. As we discover that more and more diseases have a complex web of genetic causation, we
need larger and larger genetic datasets to disentangle them, and to ultimately produce successful therapies.
Driven in part by this need, the community is now assembling vast collections of human genome sequences,
and millions of samples will soon be commonplace. There is a profound problem, however: our computational
methods for storing, processing, and analyzing genomic data are lagging far behind. The algorithms and data
structures underlying today’s computational methods were designed for thousands of samples, not millions.
Without fundamental change in how we store and process genomic data, we will either not fully tap the
potential of the data we collect, or the computational costs will be astronomical – or both.
Nonhuman datasets, with applications in epidemiology, ecology, evolution, and agriculture, may not reach
these sample sizes soon, but here we nevertheless face a related barrier. Simulation is increasingly important
for tasks from hypothesis generation to parameter inference. However, current simulation methods only scale
to tens or hundreds of thousands of individuals, inappropriate for many species of interest (e.g., mosquitos).
This is crucial, since evolution and ecology in large populations differs from small ones, in ways that cannot
be avoided by mathematical tricks (like rescaling).
Our proposal addresses these critical needs by focusing on a new data structure: the “tree sequence”,
which encodes genetic variation data using the population genetics processes that produced the data itself,
by representing variation among contemporary samples using the underlying genealogical trees. This yields
extraordinary levels of data compression, with file sizes hundreds of times smaller than current community
standards. Since the tree sequence was introduced in 2016 it has led to performance increases of 2–4 orders
of magnitude in genome simulation, calculation of statistics, and ancestry inference. Such sudden leaps in
computational performance are vanishingly rare, and only possible through deep algorithmic advances.
Our research plan builds on the extraordinary successes of tree sequence methods so far, scaling up three
crucial layers of computational genomics: analysis, simulation, and inference. First, we will continue our
development of highly efficient tree-sequence-based methods for fundamental operations in statistical and
population genetics. Second, we will scale up genome simulations by integrating tree sequence methods
into complex forward-time simulations and utilizing modern, multicore processors. Third, we will combine
efficient simulations and the rich information contained in the tree sequence with cutting-edge deep-learning
techniques to develop new inference methods. Together, we aim to revolutionize the way we work with and
learn from population genetic variation data.
项目概要/摘要
增加样本量是建立我们对遗传学的理解的一个极其重要的因素
当我们发现越来越多的疾病具有复杂的遗传因果关系网络时,我们
需要越来越大的基因数据集来解开它们,并最终产生成功的治疗方法。
在这种需求的推动下,社区现在正在收集大量的人类基因组序列,
然而,数以百万计的样本很快就会变得司空见惯,但有一个深刻的问题:我们的计算能力。
基因组数据的存储、处理和分析方法远远落后于算法和数据。
当今的计算方法的底层结构是针对数千个样本而不是数百万个样本而设计的。
如果我们存储和处理基因组数据的方式没有根本改变,我们要么无法充分利用
我们收集的数据的潜力,或者计算成本将是天文数字——或者两者兼而有之。
非人类数据集在流行病学、生态学、进化论和农业方面的应用可能无法达到
这些样本大小很快就会出现,但我们仍然面临着一个相关的障碍,模拟变得越来越重要。
用于从假设生成到参数推断的任务然而,当前的模拟方法只能扩展。
数万或数十万个体,不适合许多感兴趣的物种(例如蚊子)。
这一点至关重要,因为大群体的进化和生态学与小群体的不同,其方式是无法预测的。
通过数学技巧(例如重新缩放)可以避免。
我们的提案通过关注新的数据结构来解决这些关键需求:“树序列”,
它使用产生数据本身的群体遗传学过程对遗传变异数据进行编码,
通过使用潜在的遗传树来表示当代样本之间的变异。
非凡的数据压缩水平,文件大小比当前社区小数百倍
自 2016 年引入树序列以来,性能提高了 2-4 阶。
基因组模拟、统计计算和祖先推断的巨大进步。
计算性能非常罕见,只有通过深度算法的进步才有可能实现。
我们的研究计划建立在树序列方法迄今为止取得的非凡成功的基础上,扩大了三个
计算基因组学的关键层:分析、模拟和推理 首先,我们将继续我们的研究。
开发基于树序列的高效方法,用于统计和统计中的基本操作
其次,我们将通过整合树序列方法来扩大基因组模拟。
第三,我们将结合复杂的前向时间模拟并利用现代多核处理器。
通过尖端的深度学习进行高效的模拟和树序列中包含的丰富信息
我们共同致力于开发新的推理方法,彻底改变我们的工作方式。
从群体遗传变异数据中学习。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
PETER Lochhead RALPH其他文献
PETER Lochhead RALPH的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('PETER Lochhead RALPH', 18)}}的其他基金
Scaling up computational genomics with tree sequences
用树序列扩展计算基因组学
- 批准号:
10471496 - 财政年份:2021
- 资助金额:
$ 60.57万 - 项目类别:
相似国自然基金
同伴压力对农民参与农业项目行为的影响:基于风险态度和模糊态度传导的实验经济学研究
- 批准号:72363004
- 批准年份:2023
- 资助金额:27 万元
- 项目类别:地区科学基金项目
冰冻圈影响区水文农业模型构建及水资源供需关系研究-以塔里木河流域为例
- 批准号:42301147
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
区域特色农业品牌对小农户生计资本与农业绿色发展的影响机制及情景模拟研究
- 批准号:42301242
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
农业商业化冲击对中国近代产业发展与空间分布的影响研究
- 批准号:72363003
- 批准年份:2023
- 资助金额:27 万元
- 项目类别:地区科学基金项目
全球农业食品系统的生态毒理及人体健康影响研究
- 批准号:52370193
- 批准年份:2023
- 资助金额:50 万元
- 项目类别:面上项目
相似海外基金
Development of a rapid screening test for the detection of dihydroanatoxin-a
开发检测二氢虾毒素-a 的快速筛选试验
- 批准号:
10545266 - 财政年份:2023
- 资助金额:
$ 60.57万 - 项目类别:
Community-engaged environmental monitoring for biowaste treatment transitions
社区参与生物废物处理过渡的环境监测
- 批准号:
10795523 - 财政年份:2023
- 资助金额:
$ 60.57万 - 项目类别:
Promesa: Urban gardening and peer nutritional counseling to improve HIV care outcomes among people with food insecurity in the Dominican Republic
Promesa:城市园艺和同伴营养咨询可改善多米尼加共和国粮食不安全人群的艾滋病毒护理结果
- 批准号:
10698434 - 财政年份:2023
- 资助金额:
$ 60.57万 - 项目类别:
Understanding predictability of evolutionary trajectories
了解进化轨迹的可预测性
- 批准号:
10712637 - 财政年份:2023
- 资助金额:
$ 60.57万 - 项目类别:
Male pesticide exposure, reproductive health and epigenetics
男性农药接触、生殖健康和表观遗传学
- 批准号:
10733537 - 财政年份:2023
- 资助金额:
$ 60.57万 - 项目类别: