The Architecture of Missing and Archaic Variation in Human Population Genomic Data

人类基因组数据中缺失和古老变异的结构

基本信息

  • 批准号:
    10292375
  • 负责人:
  • 金额:
    $ 44.1万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
  • 财政年份:
    2021
  • 资助国家:
    美国
  • 起止时间:
    2021-07-01 至 2024-06-30
  • 项目状态:
    已结题

项目摘要

Project Summary Modern human genomes are mosaics of variation from numerous archaic non-human hominins, often termed “ghost” populations. However, our understanding of the evolutionary history of “ghost” variation is still developing. Importantly, computational methods to address missing “ghost” variation are still nascent, and not accounting for the presence of “ghosts” often leads to erroneous inference. Here I propose a series of programmatic developments to address inference of evolutionary history from modern human genomes, while accounting for gene flow from archaic “ghosts”. In AIM 1, I propose to develop a parallelized statistical framework for estimating population genetic structure from multi-allelic, multi-locus genomic data that incorporates sequencing and imputation errors of data considered missing due to gene flow from archaic “ghost” populations into a maximum likelihood based statistical framework. This method will be incorporated into a computationally efficient program called p-MULTICLUST, a multi-threaded, parallelized tool which extends the popular “admixture” model incorporated in tools like STRUCTURE and ADMIXTURE to account for missing multi- allelic human genomic data. AIM 2 will involve a two-pronged approach to estimate evolutionary history and population structure in the presence of gene flow from an archaic “ghost” under the Isolation with Migration (IM) model. We will (a) develop extensions to the IMa3/IMa2p suite of tools to incorporate joint estimation of population structure and demographic history from genomic data, and (b) train undergraduate students in developing simulation models for the stdpopsim consortium under two important models of human history – (1) archaic “ghost” gene flow in native Africans, and (2) multiple-epochs of admixture into Asians/Oceanians. In AIM 3, I propose to quantify the selection landscape of “ghost” variation across diverse human genomes due to ancestral gene flow from now extinct “ghost” populations. In this aim, we will focus on (a) improvements to the MigSelect program to quantify linked selection effects due to gene flow from “ghost” populations under the IM model, and (b) a larger, more encompassing study of functional genomic variation across diverse human populations including high-quality genomes from Africa, supplemented with more complete Neanderthal, and other non-human hominin genomes which will help us delineate patterns of human evolutionary history, and understand the functional consequences of archaic gene flow. These discoveries also have direct consequences for understanding modern human ancestry, and disease allele evolution. Importantly, this R15 will train numerous underrepresented Undergraduate and Graduate students in genomics and bioinformatics, towards careers in the biomedical and data sciences.
项目概要 现代人类基因组是许多古老非人类古人类变异的镶嵌体,通常被称为 然而,我们对“幽灵”变异进化史的理解仍在发展中。 重要的是,解决缺失“幽灵”变异的计算方法仍然处于新生阶段,并且没有考虑到 “鬼魂”的存在往往会导致错误的推论,在此我提出一系列纲领性的建议。 解决从现代人类基因组推断进化历史的进展,同时 在 AIM 1 中,我建议开发一种并行统计方法。 从多等位基因、多位点基因组数据估计群体遗传结构的框架 纳入了由于古老“幽灵”的基因流而被认为缺失的数据的测序和插补错误 该方法将被纳入基于最大似然的统计框架。 名为 p-MULTICLUST 的计算高效程序,是一种多线程并行工具,可扩展 流行的“混合”模型融入到 STRUCTURE 和 ADMIXTURE 等工具中,以解决缺失的多重问题 AIM 2 将采用双管齐下的方法来估计进化历史和 在隔离与迁移(IM)下,存在来自古老“幽灵”的基因流时的种群结构 我们将 (a) 开发 IMa3/IMa2p 工具套件的扩展,以纳入联合估计 来自基因组数据的人口结构和人口历史,以及(b)培训本科生 在人类历史的两个重要模型下为 stdpopsim 联盟开发仿真模型 – (1) 非洲原住民中古老的“幽灵”基因流动,以及(2)在AIM中多次混入亚洲/大洋洲人。 3,我建议量化不同人类基因组中“幽灵”变异的选择景观,因为 来自现已灭绝的“幽灵”种群的祖先基因流 为了实现这一目标,我们将重点关注 (a) 的改进。 MigSelect 程序用于量化 IM 下“幽灵”种群的基因流导致的连锁选择效应 模型,以及(b)对不同人类的功能基因组变异进行更大规模、更全面的研究 人口包括来自非洲的高质量基因组,辅以更完整的尼安德特人,以及 其他非人类古人类基因组将帮助我们描绘人类进化历史的模式,以及 了解古老基因流的功能后果这些发现也有直接的影响。 为了了解现代人类的血统和疾病等位基因的进化,重要的是,这个 R15 将训练大量的人。 基因组学和生物信息学领域的本科生和研究生比例不足,走向职业生涯 生物医学和数据科学。

项目成果

期刊论文数量(2)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Teaching computational genomics and bioinformatics on a high performance computing cluster-a primer.
在高性能计算集群上教授计算基因组学和生物信息学 - 入门。
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    3.6
  • 作者:
    Sethuraman; Arun
  • 通讯作者:
    Arun
Genome of a novel Sediminibacterium discovered in association with two species of freshwater cyanobacteria from streams in Southern California.
一种新型 Sediminibacter 的基因组,与南加州溪流中的两种淡水蓝细菌有关。
  • DOI:
  • 发表时间:
    2022-07-06
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Sethuraman, Arun;Stancheva, Rosalina;Sanders, Ciara;Caceres, Lakme;Castro, David;Hausknecht;Henry, Simone;Johansen, Haven;Kasler, Antolette;Lastor, Sandy;Massaro, Isabelle;Mekuria, Immanuel;Moron;Read, Niki;Venger
  • 通讯作者:
    Venger
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Kimberly Ayers其他文献

Kimberly Ayers的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

相似国自然基金

本体驱动的地址数据空间语义建模与地址匹配方法
  • 批准号:
    41901325
  • 批准年份:
    2019
  • 资助金额:
    22.0 万元
  • 项目类别:
    青年科学基金项目
时空序列驱动的神经形态视觉目标识别算法研究
  • 批准号:
    61906126
  • 批准年份:
    2019
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
针对内存攻击对象的内存安全防御技术研究
  • 批准号:
    61802432
  • 批准年份:
    2018
  • 资助金额:
    25.0 万元
  • 项目类别:
    青年科学基金项目
大容量固态硬盘地址映射表优化设计与访存优化研究
  • 批准号:
    61802133
  • 批准年份:
    2018
  • 资助金额:
    23.0 万元
  • 项目类别:
    青年科学基金项目
IP地址驱动的多径路由及流量传输控制研究
  • 批准号:
    61872252
  • 批准年份:
    2018
  • 资助金额:
    64.0 万元
  • 项目类别:
    面上项目

相似海外基金

BridgePRS: bridging the gap in polygenic risk scores between ancestries.
BridgePRS:缩小祖先之间多基因风险评分的差距。
  • 批准号:
    10737057
  • 财政年份:
    2023
  • 资助金额:
    $ 44.1万
  • 项目类别:
Empowering gene discovery and accelerating clinical translation for diverse admixed populations
促进基因发现并加速不同混合人群的临床转化
  • 批准号:
    10584936
  • 财政年份:
    2023
  • 资助金额:
    $ 44.1万
  • 项目类别:
Uncovering sources of human gene expression variation in a globally diverse cohort
揭示全球多样化群体中人类基因表达变异的来源
  • 批准号:
    10607411
  • 财政年份:
    2023
  • 资助金额:
    $ 44.1万
  • 项目类别:
Understanding Alzheimer disease heterogeneity in Hispanic populations.
了解西班牙裔人群中阿尔茨海默病的异质性。
  • 批准号:
    10449014
  • 财政年份:
    2022
  • 资助金额:
    $ 44.1万
  • 项目类别:
Understanding Alzheimer disease heterogeneity in Hispanic populations.
了解西班牙裔人群中阿尔茨海默病的异质性。
  • 批准号:
    10677624
  • 财政年份:
    2022
  • 资助金额:
    $ 44.1万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了