Novel methods for large-scale genomic interval comparison
大规模基因组区间比较的新方法
基本信息
- 批准号:10678947
- 负责人:
- 金额:$ 38.4万
- 依托单位:
- 依托单位国家:美国
- 项目类别:
- 财政年份:2022
- 资助国家:美国
- 起止时间:2022-08-10 至 2026-05-31
- 项目状态:未结题
- 来源:
- 关键词:
项目摘要
ABSTRACT
Epigenome data are driving discovery in biomedical analysis of genetic variation and gene regulation. Epigenome
data produced by experimental protocols such as ATAC-seq or ChIP-seq are often summarized into sets of
genomic intervals defined by a chromosome plus start and end coordinates. Databases now provide hundreds
of thousands of such region sets, each containing potentially hundreds of thousands of individual regions. This
data holds tremendous promise to understand gene regulation and disease because many health outcomes are
affected by genetic variation or epigenetic perturbation in regulatory DNA.
Many different tools and methods have been developed to assess such sets of genomic intervals. These ap-
proaches are used for a broad array of biomedical research, such as annotating genetic variation associated
with disease traits. Supporting region-based analyses, we and others have developed novel data structures and
algorithms to compare similarity of region sets and to compute overlaps between interval sets, enabling interval
comparisons on millions of regions. But as the genomic interval set data sources grow in size and scope, we
require both faster algorithms and novel methods to compare this important data type.
As the amount of available data increases, it is becoming intractable to compute exact overlaps. Furthermore,
the fastest algorithms only analyze pure intervals, not signal values, which could be used to compare interval sets
more accurately. Existing approaches have made little progress in the area of defining canonical interval sets to
simplify analysis even further.
Here, we address these limitations in several ways: First, we develop novel, more scalable algorithms using
approximate computations and define the idea of interval set universes to consolidate analysis. Second, we
develop an innovative approach to analyzing region sets that goes beyond simply counting overlaps, instead
relying on cutting-edge machine learning methods to learn and measure similarity more accurately. We propose
a novel set theoretic approach building on techniques from natural language processing to compare intervals.
Together, we propose a first-pass filter that can be reasonably computed on data sets containing billions to trillions
of genomic intervals, followed by a more accurate analysis to identify more subtle relationships among region sets.
These advances will improve both the efficiency and accuracy of existing biomedical research approaches, and
open the door to new ways of exploring the vast and growing corpus of genome interval data.
抽象的
表观基因组数据正在推动遗传变异和基因调节的生物医学分析中的发现。表观基因组
通过实验方案(例如ATAC-SEQ或CHIP-SEQ)产生的数据通常被总结为一组
基因组间隔由染色体加上和最终坐标定义。数据库现在提供数百个
在数千个这样的区域集中,每个集合都包含数十万个单个区域。这
数据具有巨大的希望,可以理解基因调节和疾病,因为许多健康结果是
受调节DNA的遗传变异或表观扰动的影响。
已经开发了许多不同的工具和方法来评估此类基因组间隔。这些ap-
促进物用于广泛的生物医学研究,例如注释相关的遗传变异
具有疾病特征。支持基于区域的分析,我们和其他人开发了新颖的数据结构和
比较区域集的相似性和计算间隔集之间的重叠的算法,启用间隔
比较数百万个地区。但是,随着基因组间隔集数据源的大小和范围的增长,我们
需要更快的算法和新颖的方法来比较这种重要的数据类型。
随着可用数据的数量增加,它对计算确切的重叠变得棘手。此外,
最快的算法仅分析纯间隔,而不是信号值,可用于比较间隔集
更准确。现有方法在定义的规范间隔集的领域几乎没有取得进展
进一步简化分析。
在这里,我们以多种方式解决了这些限制:首先,我们使用
近似计算并定义间隔设定宇宙以巩固分析的想法。第二,我们
开发一种创新的方法来分析区域集,而不是简单地计数重叠,而是
依靠尖端的机器学习方法来更准确地学习和衡量相似性。我们建议
一种新颖的理论方法构建了从自然语言处理到比较间隔的技术。
我们共同提出了一个可以在包含数十亿至万亿的数据集上合理计算的第一个通用器
基因组间隔,然后进行更准确的分析,以确定区域集之间的更微妙的关系。
这些进步将提高现有生物医学研究方法的效率和准确性,以及
打开探索大量和不断增长的基因组间隔数据语料库的新方法。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

暂无数据
数据更新时间:2024-06-01
Nathan Sheffield的其他基金
Novel methods for large-scale genomic interval comparison
大规模基因组区间比较的新方法
- 批准号:1084204010842040
- 财政年份:2022
- 资助金额:$ 38.4万$ 38.4万
- 项目类别:
A modular data analysis ecosystem using portable encapsulated projects
使用便携式封装项目的模块化数据分析生态系统
- 批准号:1046868010468680
- 财政年份:2018
- 资助金额:$ 38.4万$ 38.4万
- 项目类别:
A modular data analysis ecosystem using portable encapsulated projects
使用便携式封装项目的模块化数据分析生态系统
- 批准号:1001939910019399
- 财政年份:2018
- 资助金额:$ 38.4万$ 38.4万
- 项目类别:
A modular data analysis ecosystem using portable encapsulated projects
使用便携式封装项目的模块化数据分析生态系统
- 批准号:97513449751344
- 财政年份:2018
- 资助金额:$ 38.4万$ 38.4万
- 项目类别:
A modular data analysis ecosystem using portable encapsulated projects
使用便携式封装项目的模块化数据分析生态系统
- 批准号:1022481910224819
- 财政年份:2018
- 资助金额:$ 38.4万$ 38.4万
- 项目类别:
相似国自然基金
时空序列驱动的神经形态视觉目标识别算法研究
- 批准号:61906126
- 批准年份:2019
- 资助金额:24.0 万元
- 项目类别:青年科学基金项目
本体驱动的地址数据空间语义建模与地址匹配方法
- 批准号:41901325
- 批准年份:2019
- 资助金额:22.0 万元
- 项目类别:青年科学基金项目
大容量固态硬盘地址映射表优化设计与访存优化研究
- 批准号:61802133
- 批准年份:2018
- 资助金额:23.0 万元
- 项目类别:青年科学基金项目
IP地址驱动的多径路由及流量传输控制研究
- 批准号:61872252
- 批准年份:2018
- 资助金额:64.0 万元
- 项目类别:面上项目
针对内存攻击对象的内存安全防御技术研究
- 批准号:61802432
- 批准年份:2018
- 资助金额:25.0 万元
- 项目类别:青年科学基金项目
相似海外基金
Elucidating the Role of YAP and TAZ in the Aging Human Ovary
阐明 YAP 和 TAZ 在人类卵巢衰老中的作用
- 批准号:1072236810722368
- 财政年份:2023
- 资助金额:$ 38.4万$ 38.4万
- 项目类别:
Multi-omic phenotyping of human transcriptional regulators
人类转录调节因子的多组学表型分析
- 批准号:1073315510733155
- 财政年份:2023
- 资助金额:$ 38.4万$ 38.4万
- 项目类别:
Gene regulatory networks in early lung epithelial cell fate decisions
早期肺上皮细胞命运决定中的基因调控网络
- 批准号:1058761510587615
- 财政年份:2023
- 资助金额:$ 38.4万$ 38.4万
- 项目类别:
Defining mechanisms of metabolic-epigenetic crosstalk that drive glioma initiation
定义驱动神经胶质瘤发生的代谢-表观遗传串扰机制
- 批准号:1058119210581192
- 财政年份:2023
- 资助金额:$ 38.4万$ 38.4万
- 项目类别: