Novel methods for large-scale genomic interval comparison

大规模基因组区间比较的新方法

基本信息

  • 批准号:
    10842040
  • 负责人:
  • 金额:
    $ 31.47万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
  • 财政年份:
    2022
  • 资助国家:
    美国
  • 起止时间:
    2022-08-10 至 2026-05-31
  • 项目状态:
    未结题

项目摘要

ABSTRACT This administrative supplement creates AI/ML-ready resources for epigenome genomic interval data. Epigenome data summarized as sets of genomic intervals are now available for thousands of variations of cell type, disease, condition, etc. This data holds tremendous promise to understand gene regulation and disease be- cause many health outcomes are affected by genetic variation or epigenetic perturbation in regulatory DNA. The parent R01 develops novel, scalable algorithms and measures of similarity between genomic interval datasets. These advances will improve both the efficiency and accuracy of existing biomedical research approaches that rely on analyzing genomic region data. They will open the door to new ways of exploring the vast and growing corpus of genome interval data. In this administrative supplement, we seek to take this rich data source and produce AI/ML-ready resources for the community. While there has been some effort to create uniformly processed databases of genomic interval data, there are few high-quality genomic interval currently available that are designed for machine learning applications. One of the first steps to integrating epigenome data across data sources is defining consensus regions that fit the original data well. Many downstream analyses, particularly learning tasks, rely on such a consensus region set. However, choosing a good consensus can be a time-consuming and confusing process, and also has potential to lose substantial information and introduce errors into results. To help alleviate this challenge, this proposal will take several datasets through a principled approach to generate AI/ML-ready resources. This process will include 1) defining consensus regions; 2) projecting raw data into the consensus to standardize it; and 3) standardizing annotation. Finally, we will make these available to the community with user-friendly and well-documented interfaces. The outcome will be a series of datasets that are ready for use for the community to build ML models.
抽象的 该行政补充为表观基因组基因组区间数据创建了 AI/ML 就绪资源。 表观基因组数据总结为基因组间隔集,现在可用于数千种细胞变异 类型、疾病、状况等。这些数据对于了解基因调控和疾病有巨大的希望。 因为许多健康结果都受到调控 DNA 中遗传变异或表观遗传扰动的影响。 母公司 R01 开发新颖的、可扩展的算法和基因组间隔数据集之间相似性的测量。 这些进步将提高现有生物医学研究方法的效率和准确性 依靠分析基因组区域数据,他们将为探索庞大且不断增长的新方法打开大门。 基因组间隔数据语料库。 在本行政补充文件中,我们寻求利用这一丰富的数据源并为 AI/ML 提供就绪的资源 虽然已经做出了一些努力来创建统一处理的基因组间隔数据数据库, 目前,专为机器学习应用而设计的高质量基因组区间很少。 跨数据源整合表观基因组数据的第一步是定义共识区域 许多下游分析,特别是学习任务,都依赖于这样的共识。 然而,选择一个好的共识可能是一个耗时且令人困惑的过程,而且 有可能丢失大量信息并在结果中引入错误,以帮助缓解这一挑战。 该提案将通过原则性方法获取多个数据集,以生成 AI/ML 就绪资源。 流程将包括 1) 定义共识区域;2) 将原始数据投影到共识中以对其进行标准化; 3)标准化注释最后,我们将以用户友好的方式向社区提供这些注释。 结果将是一系列可供社区使用的数据集。 构建机器学习模型。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Nathan Sheffield其他文献

Nathan Sheffield的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Nathan Sheffield', 18)}}的其他基金

Novel methods for large-scale genomic interval comparison
大规模基因组区间比较的新方法
  • 批准号:
    10678947
  • 财政年份:
    2022
  • 资助金额:
    $ 31.47万
  • 项目类别:
A modular data analysis ecosystem using portable encapsulated projects
使用便携式封装项目的模块化数据分析生态系统
  • 批准号:
    10468680
  • 财政年份:
    2018
  • 资助金额:
    $ 31.47万
  • 项目类别:
A modular data analysis ecosystem using portable encapsulated projects
使用便携式封装项目的模块化数据分析生态系统
  • 批准号:
    10019399
  • 财政年份:
    2018
  • 资助金额:
    $ 31.47万
  • 项目类别:
A modular data analysis ecosystem using portable encapsulated projects
使用便携式封装项目的模块化数据分析生态系统
  • 批准号:
    9751344
  • 财政年份:
    2018
  • 资助金额:
    $ 31.47万
  • 项目类别:
A modular data analysis ecosystem using portable encapsulated projects
使用便携式封装项目的模块化数据分析生态系统
  • 批准号:
    10224819
  • 财政年份:
    2018
  • 资助金额:
    $ 31.47万
  • 项目类别:

相似海外基金

Programs for the Training and Advancement of the Next GENeration of Native Researchers in Genetics, Ethics and Society
下一代本土遗传学、伦理学和社会研究人员的培训和提升计划
  • 批准号:
    10841760
  • 财政年份:
    2023
  • 资助金额:
    $ 31.47万
  • 项目类别:
Improving identification and healthcare for patients with Inherited Cancer Syndromes: Evidence-based EMR implementation using a web-based computer platform
改善遗传性癌症综合征患者的识别和医疗保健:使用基于网络的计算机平台实施基于证据的 EMR
  • 批准号:
    10831647
  • 财政年份:
    2023
  • 资助金额:
    $ 31.47万
  • 项目类别:
Identifying how alcohol-evoked changes in neural firing affect systems level computations during decision-making
确定酒精引起的神经放电变化如何影响决策过程中的系统级计算
  • 批准号:
    10766877
  • 财政年份:
    2023
  • 资助金额:
    $ 31.47万
  • 项目类别:
Bioethical Issues Associated with Objective Behavioral Measurement of Children with Hearing Loss in Naturalistic Environments
与自然环境中听力损失儿童的客观行为测量相关的生物伦理问题
  • 批准号:
    10790269
  • 财政年份:
    2023
  • 资助金额:
    $ 31.47万
  • 项目类别:
South Carolina Clinical & Translational Research Institute (SCTR)
南卡罗来纳州临床
  • 批准号:
    10820346
  • 财政年份:
    2023
  • 资助金额:
    $ 31.47万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了