K-mer indexing for pan-genome reference annotation

用于泛基因组参考注释的 K-mer 索引

基本信息

  • 批准号:
    10093116
  • 负责人:
  • 金额:
    $ 30万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
  • 财政年份:
    2020
  • 资助国家:
    美国
  • 起止时间:
    2020-02-01 至 2023-01-31
  • 项目状态:
    已结题

项目摘要

ABSTRACT  The human genome reference sequence is one of the foundations of genome sciences, especially in the context  of next-­generation sequencing (NGS) analysis.  The reference has enabled discoveries in biomedical research  and been particularly instrumental in human disease gene identification.  However, the human genome reference  is  limited  by  its  static  and  linear  nature.    Specifically,  the  current  reference  lacks  the  featural  and  contextual  flexibility  to  represent  the  breadth  of  human  variation.    Important  elements  of  individual  genomes  are  either  missed or incorrectly represented.  As a solution that will bridge the next generation of reference assemblies with  population genome sequencing studies, we have developed a K-­mer-­based indexing approach.  This method is  more efficient computationally, provides accurate representation in the context of populations and facilitates the  analysis  of  diverse  human  genomes.    Our  goal  is  to  use  this  strategy  in  developing  a  robust  computational  architecture  that  will  encode  and  annotate  large  collections  of  genomes  in  the  context  of  a  pan-­genome  reference.    First, we plan to develop a scalable, efficient K-­mer representation of a large collection of haplotype/phased  reference genomes, by 1) generating an index of all K-­mers in human reference genome GRCh38 in a manner  that can efficiently store variant information as metadata, and then 2) incrementally updating the K-­mer index to  include all novel K-­mers derived from ongoing population sequencing efforts, while 3) developing schemes for  directly analyzing compressed genomic data.    Second, we plan to apply K-­mer representation to genomic analysis by 1) providing the entirety of known  human  genetic  variation  in  an  aggregated  index  that  is  computationally  efficient  and  easy  to  understand,  2)  developing functions for our pan-­genomic index that supports ultra-­rapid queries, such as of clinically important  variants, and 3) linking conventional coordinate information to the K-­mer metadata in the pan-­genome index to  allow annotating genetic variation to a particular genome reference.    Third, we will create an online web portal for the pan-­genome, using cloud computing, to maximize the utility  of our approach, to promote community engagement and to enabling contribution from the research community.   We expect that completion of these aims will provide: a scalable computational architecture which incorporates  the continuous addition of variant information without loss of resolution or accuracy;; rapid query speeds that will  remain nearly constant as the database grows;; a universally accessible portal using cloud computing.    This work will help solve the issues of multiple assemblies.  It will improve researchers’ ability to understand  the  relationship of  variants and  disease,  while also  providing  great  savings  over  the  long-­term  in  infrastructure  and computing costs.
抽象的 人类基因组参考序列是基因组科学的基础之一,尤其是在这方面。 新一代测序 (NGS) 分析的参考文献促成了生物医学研究的发现。 尤其是在人类疾病基因鉴定方面发挥了重要作用。然而,人类基因组参考。 具体而言,当前参考文献的特征和上下文受到其静态和线性性质的限制。 代表人类变异广度的灵活性是个体基因组的重要元素。 作为连接下一代参考组件的解决方案。 在群体基因组测序研究中,我们开发了一种基于 K-mer 的索引方法。 计算效率更高,可以在人口背景下提供准确的表示,并促进 我们的目标是使用这种策略来开发强大的计算。 将在泛基因组背景下编码和注释大量基因组的架构 参考。 首先,我们计划开发一个可扩展、高效的 K-mer 表示,用于表示大量单倍型/阶段性的数据。 参考基因组,通过 1) 以某种方式生成人类参考基因组 GRCh38 中所有 K-mers 的索引 可以有效地将变异信息存储为元数据,然后 2) 增量更新 K-mer 索引 包括源自正在进行的群体测序工作的所有新型 K-mers,同时 3) 制定方案 直接分析压缩的基因组数据。 其次,我们计划通过以下方式将 K-mer 表示应用于基因组分析:1)提供全部已知的 聚合索引中的人类遗传变异计算高效且易于理解,2) 为我们的泛基因组索引开发支持超快速查询的功能,例如临床重要的查询 变体,以及 3) 将传统坐标信息与泛基因组索引中的 K-mer 元数据链接起来 允许将遗传变异注释到特定的基因组参考。 第三,我们将创建一个泛基因组在线门户网站,利用云计算,将效用最大化 我们的方法是促进社区参与并促进研究社区的贡献。 我们期望这些目标的完成将提供:一个可扩展的计算架构,其中包含。 连续添加变体信息而不损失分辨率或准确性; 随着数据库的增长几乎保持不变;;使用云计算的普遍可访问的门户。 这项工作将有助于解决多个组件的问题,并将提高研究人员的理解能力。 变异和疾病的关系,同时还可以长期节省大量基础设施费用 和计算成本。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Hanlee P Ji其他文献

Hanlee P Ji的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Hanlee P Ji', 18)}}的其他基金

K-mer indexing for pan-genome reference annotation
用于泛基因组参考注释的 K-mer 索引
  • 批准号:
    10793082
  • 财政年份:
    2023
  • 资助金额:
    $ 30万
  • 项目类别:
Determine the mechanisms of acquired brain-tropism
确定获得性脑向性的机制
  • 批准号:
    10813237
  • 财政年份:
    2023
  • 资助金额:
    $ 30万
  • 项目类别:
Integrating cancer genomics and spatial architecture of tumor infiltrating lymphocytes
整合癌症基因组学和肿瘤浸润淋巴细胞的空间结构
  • 批准号:
    10637960
  • 财政年份:
    2023
  • 资助金额:
    $ 30万
  • 项目类别:
Single cell modeling of cancer mutations
癌症突变的单细胞建模
  • 批准号:
    10612689
  • 财政年份:
    2023
  • 资助金额:
    $ 30万
  • 项目类别:
Project 1 - Molecular and Cellular Determinants of High Risk Gastric Precancerous Lesions
项目1——高危胃癌癌前病变的分子和细胞决定因素
  • 批准号:
    10715762
  • 财政年份:
    2023
  • 资助金额:
    $ 30万
  • 项目类别:
Core A: Administrative
核心A:行政
  • 批准号:
    10715765
  • 财政年份:
    2023
  • 资助金额:
    $ 30万
  • 项目类别:
Determine the mechanisms of acquired brain-tropism
确定获得性脑向性的机制
  • 批准号:
    10706493
  • 财政年份:
    2021
  • 资助金额:
    $ 30万
  • 项目类别:
Determine the mechanisms of acquired brain-tropism
确定获得性脑向性的机制
  • 批准号:
    10272359
  • 财政年份:
    2021
  • 资助金额:
    $ 30万
  • 项目类别:
Multimodal iterative sequencing of cancer genomes and single tumor cells
癌症基因组和单个肿瘤细胞的多模式迭代测序
  • 批准号:
    10363694
  • 财政年份:
    2021
  • 资助金额:
    $ 30万
  • 项目类别:
Multimodal iterative sequencing of cancer genomes and single tumor cells
癌症基因组和单个肿瘤细胞的多模式迭代测序
  • 批准号:
    10112576
  • 财政年份:
    2021
  • 资助金额:
    $ 30万
  • 项目类别:

相似国自然基金

地表与大气层顶短波辐射多分量一体化遥感反演算法研究
  • 批准号:
    42371342
  • 批准年份:
    2023
  • 资助金额:
    52 万元
  • 项目类别:
    面上项目
高速铁路柔性列车运行图集成优化模型及对偶分解算法
  • 批准号:
    72361020
  • 批准年份:
    2023
  • 资助金额:
    27 万元
  • 项目类别:
    地区科学基金项目
随机密度泛函理论的算法设计和分析
  • 批准号:
    12371431
  • 批准年份:
    2023
  • 资助金额:
    43.5 万元
  • 项目类别:
    面上项目
基于全息交通数据的高速公路大型货车运行风险识别算法及主动干预方法研究
  • 批准号:
    52372329
  • 批准年份:
    2023
  • 资助金额:
    49 万元
  • 项目类别:
    面上项目
强磁场作用下两相铁磁流体动力学相场模型的高精度数值算法研究
  • 批准号:
    12361074
  • 批准年份:
    2023
  • 资助金额:
    27 万元
  • 项目类别:
    地区科学基金项目

相似海外基金

Dynamic neural coding of spectro-temporal sound features during free movement
自由运动时谱时声音特征的动态神经编码
  • 批准号:
    10656110
  • 财政年份:
    2023
  • 资助金额:
    $ 30万
  • 项目类别:
A computational model for prediction of morphology, patterning, and strength in bone regeneration
用于预测骨再生形态、图案和强度的计算模型
  • 批准号:
    10727940
  • 财政年份:
    2023
  • 资助金额:
    $ 30万
  • 项目类别:
Elucidating causal mechanisms of ethanol-induced analgesia in BXD recombinant inbred mouse lines
阐明 BXD 重组近交系小鼠乙醇诱导镇痛的因果机制
  • 批准号:
    10825737
  • 财政年份:
    2023
  • 资助金额:
    $ 30万
  • 项目类别:
GPU-based SPECT Reconstruction Using Reverse Monte Carlo Simulations
使用反向蒙特卡罗模拟进行基于 GPU 的 SPECT 重建
  • 批准号:
    10740079
  • 财政年份:
    2023
  • 资助金额:
    $ 30万
  • 项目类别:
Discovering clinical endpoints of toxicity via graph machine learning and semantic data analysis
通过图机器学习和语义数据分析发现毒性的临床终点
  • 批准号:
    10745593
  • 财政年份:
    2023
  • 资助金额:
    $ 30万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了