Novel bioinformatics methods for integrative detection of structural variants from long-read sequencing

用于从长读长测序中综合检测结构变异的新型生物信息学方法

基本信息

  • 批准号:
    10752265
  • 负责人:
  • 金额:
    $ 4.77万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
  • 财政年份:
    2023
  • 资助国家:
    美国
  • 起止时间:
    2023-09-15 至 2026-09-14
  • 项目状态:
    未结题

项目摘要

Project Summary/Abstract Structural variants (SVs) are the largest source of variations in the human genome and are frequently associated with disease phenotypes. Thus, the identification and characterization of SVs are essential for understanding human genome structure and function. The goal of this proposal is to develop a generalized SV calling pipeline that can leverage information from the latest developments in sequencing technology and human reference genome representations to discover and resolve SVs at high accuracy. I will first integrate information across sequencing platforms to increase SV calling accuracy. Multiple sequencing and mapping platforms are now used to detect SVs from human genome data. My pipeline will increase the accuracy of SV calling with a data integration model that handles a diverse set of genomic platforms. I will next develop a novel SV scoring model based on genomic context and coverage. Several factors, such as the generally low sequence coverage in typical long-read studies, as well as alignment errors due to highly repetitive sequences, can result in a potentially high rates of false positives for SVs when using parameters for high-sensitivity calling. I use two sets of important features of SVs, genomic context and coverage, into a machine-learning model to compute confidence in SV calls for downstream analysis. Finally, I will add support for graph genome alignments by implementing support for sequence data aligned to graph genome assemblies in GFA file format. Unlike single reference genomes, pangenomes are particularly useful for characterizing large-scale structural differences in genomes between different ethnicity groups. Pangenomes would bring us closer to capturing the full extent of human genomic variation, and thus represent an important resource to leverage for SV calling. In summary, in this project I will develop a generalized SV calling pipeline capable of integrating multiple technical platforms for discovering SVs and providing support for future developments in pangenome graph assemblies. With the research training plan, I will 1) gain expertise in genomics and bioinformatics, 2) promote diversity in biomedical research though involvement in educational efforts in the community, 3) develop oral and written communication skills, and 4) prepare a scientific career focused on the study and education of human genome variation.
项目概要/摘要 结构变异(SV)是人类基因组变异的最大来源,并且经常发生 与疾病表型相关。因此,SV 的识别和表征对于 了解人类基因组的结构和功能。该提案的目标是开发一个通用的 SV 调用管道可以利用测序技术最新发展的信息, 人类参考基因组表示,以高精度发现和解析 SV。我先整合一下 跨测序平台的信息以提高 SV 调用的准确性。多重测序和作图 平台现在用于从人类基因组数据中检测SV。我的管道将提高 SV 的准确性 使用处理各种基因组平台的数据集成模型进行调用。我接下来要写小说 基于基因组背景和覆盖度的 SV 评分模型。受多种因素影响,比如普遍偏低 典型长读研究中的序列覆盖率,以及由于高度重复序列导致的比对错误, 当使用高灵敏度参数时,可能会导致 SV 误报率较高 打电话。我将 SV 的两组重要特征(基因组背景和覆盖范围)用于机器学习 计算 SV 置信度的模型需要下游分析。最后,我将添加对图基因组的支持 通过实现对与 GFA 文件中的图形基因组组件对齐的序列数据的支持来进行对齐 格式。与单一参考基因组不同,泛基因组对于表征大规模基因组特别有用 不同种族群体之间基因组的结构差异。泛基因组将使我们更接近 捕获人类基因组变异的全部范围,因此代表了可利用的重要资源 SV 来电。总之,在这个项目中,我将开发一个通用的 SV 调用管道,能够集成 多个技术平台用于发现SV并为泛基因组的未来发展提供支持 图形组件。通过研究培训计划,我将 1) 获得基因组学和生物信息学方面的专业知识,2) 通过参与社区教育工作促进生物医学研究的多样性,3) 培养口头和书面沟通技巧,以及 4)准备专注于研究和 人类基因组变异教育。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Jonathan Perdomo其他文献

Jonathan Perdomo的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

相似国自然基金

开发区跨界合作网络的形成机理与区域效应:以三大城市群为例
  • 批准号:
    42301183
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
秦岭生态效益转化与区域绿色发展模式
  • 批准号:
    72349001
  • 批准年份:
    2023
  • 资助金额:
    200 万元
  • 项目类别:
    专项基金项目
我国西南地区节点城市在次区域跨国城市网络中的地位、功能和能级提升研究
  • 批准号:
    72364037
  • 批准年份:
    2023
  • 资助金额:
    28 万元
  • 项目类别:
    地区科学基金项目
政府数据开放与资本跨区域流动:影响机理与经济后果
  • 批准号:
    72302091
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

Implementation of Innovative Treatment for Moral Injury Syndrome: A Hybrid Type 2 Study
道德伤害综合症创新治疗的实施:2 型混合研究
  • 批准号:
    10752930
  • 财政年份:
    2024
  • 资助金额:
    $ 4.77万
  • 项目类别:
Core 2: Outreach & Recruitment Core
核心 2:外展
  • 批准号:
    10716158
  • 财政年份:
    2023
  • 资助金额:
    $ 4.77万
  • 项目类别:
Addressing Systemic Barriers Impacting Health in CHC Communities
解决影响 CHC 社区健康的系统性障碍
  • 批准号:
    10781469
  • 财政年份:
    2023
  • 资助金额:
    $ 4.77万
  • 项目类别:
Infant Immunologic and Neurologic Development following Maternal Infection in Pregnancy during Recent Epidemics
近期流行病期间妊娠期感染后婴儿的免疫和神经系统发育
  • 批准号:
    10784250
  • 财政年份:
    2023
  • 资助金额:
    $ 4.77万
  • 项目类别:
The Meharry Cancer Summer Research Program (SuRP)
梅哈里癌症夏季研究计划 (SuRP)
  • 批准号:
    10715291
  • 财政年份:
    2023
  • 资助金额:
    $ 4.77万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了