Big Data Methods for Decoding Gene Regulation
解码基因调控的大数据方法
基本信息
- 批准号:9762143
- 负责人:
- 金额:$ 42.08万
- 依托单位:
- 依托单位国家:美国
- 项目类别:
- 财政年份:2018
- 资助国家:美国
- 起止时间:2018-08-10 至 2022-05-31
- 项目状态:已结题
- 来源:
- 关键词:AddressBig DataBig Data MethodsBindingBiologicalBiological FactorsBiologyCellsComplexCouplingDNADNA SequenceDataData SetDatabasesDevelopmentDimensionsDiseaseElementsEncyclopedia of DNA ElementsFoundationsFutureGene ExpressionGene Expression RegulationGenesGenetic TranscriptionHumanHuman DevelopmentMapsMeasuresMethodsModelingOutcomePlayRegenerative MedicineRegulator GenesRegulatory ElementResearchResearch PersonnelRoleSample SizeSamplingStructureTechnologyTextTimeTrainingTreesanalytical methodcell typecomputerized toolscostdesignfunctional genomicsgenetic regulatory proteingenetic variantgenome-widegenomic datahigh dimensionalityhuman diseaseimprovedinnovationinsightpredicting responsepredictive modelingprogramsresponsetranscription factortranscriptometreatment strategy
项目摘要
Project Summary
A comprehensive understanding of how genes' activities are controlled temporally and spatially is crucial for
studying human development and diseases. Transcription factors (TFs) are an important class of regulatory
proteins that can control genes' transcriptional activities by binding to target genes' regulatory DNA sequences
called cis-regulatory elements (CREs). A map of genome-wide activities of CREs, or “regulome”, in all cell
types and biological conditions will provide a foundation for investigating the basic operating rules of biology,
interpreting how genetic variants cause diseases, and guiding the development of disease treatment strategies.
Unfortunately, existing experimental regulome mapping technologies cannot analyze a large number of samples
efficiently. Thus far, they have only been applied to map regulomes in a small fraction of all biological contexts.
As a result, today a comprehensive map of human regulatory landscape is still lacking.
This study aims to develop a solution to mapping regulomes in a massive number of biological samples from
diverse cell types and conditions by leveraging publicly available functional genomic data. We will use the rich
gene expression and regulome data generated by the Encyclopedia of DNA Elements (ENCODE) project to
develop a new prediction approach that predicts a biological sample's regulome using its transcriptome (Aim 1).
We will then apply the trained prediction models to 290,000+ publicly available human gene expression samples
in the Gene Expression Omnibus (GEO) database to create a regulome map that covers hundreds of thousands
more biological contexts than existing regulome data (Aim 2). We will also develop a method to help researchers
explore the massive datasets to gain biological insights into gene regulation by projecting the data to their low-
dimensional structure reflecting their developmental trajectory (Aim 3).
Our research will create new analytical methods for predicting ultra-high-dimensional outcomes using ultra-
high-dimensional predictors, making cross-platform predictions when the training and application data are gener-
ated by different technological platforms with systematic platform differences, and retrieving the low-dimensional
spanning tree structure from a massive dataset. Applying these new methods to the vast amounts of publicly
available gene expression data will allow us to address a major challenge in regulome mapping that cannot be
solved using existing experimental technologies. By enabling fast and cost-efficient mapping and analysis of
human gene regulatory landscape, the proposed research can have a major impact on future studies of human
development and diseases.
项目概要
全面了解基因活动如何在时间和空间上受到控制对于
研究人类发育和疾病的转录因子(TF)是一类重要的调控因子。
通过与靶基因的调控 DNA 序列结合来控制基因转录活性的蛋白质
所有细胞中 CRE 或“调节组”的全基因组活性图谱。
类型和生物条件将为研究生物学的基本运行规则提供基础,
解释遗传变异如何导致疾病,并指导疾病治疗策略的制定。
不幸的是,现有的实验性规则组图谱技术无法分析大量样本
到目前为止,它们仅被应用于绘制所有生物环境中一小部分的调控组。
因此,今天仍然缺乏人类监管格局的全面地图。
本研究旨在开发一种解决方案,在大量生物样本中绘制调控组图谱。
我们将利用公开可用的功能基因组数据来实现不同的细胞类型和条件。
DNA 元素百科全书 (ENCODE) 项目生成的基因表达和调控组数据
开发一种新的预测方法,利用生物样本的转录组来预测其调控组(目标 1)。
然后,我们会将经过训练的预测模型应用于 290,000 多个公开的人类基因表达样本
在基因表达综合 (GEO) 数据库中创建涵盖数十万个的调节组图谱
我们还将开发一种方法来帮助研究人员。
探索海量数据集,通过将数据投影到其低位点来获得对基因调控的生物学见解。
反映其发展轨迹的维度结构(目标 3)。
我们的研究将创建新的分析方法,使用超预测超高维结果
高维预测器,在训练和应用数据生成时进行跨平台预测
由具有系统平台差异的不同技术平台进行计算,并检索低维
将这些新方法应用到大量的公开数据中。
现有的基因表达数据将使我们能够解决常规绘图中无法解决的重大挑战。
通过使用现有的实验技术进行快速且经济高效的映射和分析来解决。
人类基因调控景观,拟议的研究可能对人类未来的研究产生重大影响
发育和疾病。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Hongkai Ji其他文献
Hongkai Ji的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Hongkai Ji', 18)}}的其他基金
Immune Development Across the Life Course: Integrating Exposures and Multi-Omics in the Boston Birth Cohort
整个生命过程中的免疫发展:在波士顿出生队列中整合暴露和多组学
- 批准号:
10418079 - 财政年份:2022
- 资助金额:
$ 42.08万 - 项目类别:
Immune Development Across the Life Course: Integrating Exposures and Multi-Omics in the Boston Birth Cohort
整个生命过程中的免疫发展:在波士顿出生队列中整合暴露和多组学
- 批准号:
10704536 - 财政年份:2022
- 资助金额:
$ 42.08万 - 项目类别:
Computational tools for regulome mapping using single-cell genomic data
使用单细胞基因组数据进行调节组图谱的计算工具
- 批准号:
10205134 - 财政年份:2019
- 资助金额:
$ 42.08万 - 项目类别:
Computational tools for regulome mapping using single-cell genomic data
使用单细胞基因组数据进行调节组图谱的计算工具
- 批准号:
10443743 - 财政年份:2019
- 资助金额:
$ 42.08万 - 项目类别:
Computational tools for regulome mapping using single-cell genomic data
使用单细胞基因组数据进行调节组图谱的计算工具
- 批准号:
10001077 - 财政年份:2019
- 资助金额:
$ 42.08万 - 项目类别:
Computational Tools for Mining Large Amounts of ChIP and Gene Expression Data
用于挖掘大量 ChIP 和基因表达数据的计算工具
- 批准号:
8516554 - 财政年份:2012
- 资助金额:
$ 42.08万 - 项目类别:
Computational Tools for Mining Large Amounts of ChIP and Gene Expression Data
用于挖掘大量 ChIP 和基因表达数据的计算工具
- 批准号:
8372529 - 财政年份:2012
- 资助金额:
$ 42.08万 - 项目类别:
Statistical and Computational Tools for Next-generation ChIP-seq Applications
用于下一代 ChIP-seq 应用的统计和计算工具
- 批准号:
8342445 - 财政年份:2012
- 资助金额:
$ 42.08万 - 项目类别:
Statistical and Computational Tools for Next-generation ChIP-seq Applications
用于下一代 ChIP-seq 应用的统计和计算工具
- 批准号:
8666661 - 财政年份:2012
- 资助金额:
$ 42.08万 - 项目类别:
相似国自然基金
社交大数据驱动的社会网络群决策理论方法及应用研究
- 批准号:72371077
- 批准年份:2023
- 资助金额:40 万元
- 项目类别:面上项目
基于肿瘤大数据的ecDNA检测方法与消化系统肿瘤免疫治疗生物标志物研究
- 批准号:82303953
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
大数据流计算的智能化方法研究
- 批准号:62372419
- 批准年份:2023
- 资助金额:50 万元
- 项目类别:面上项目
协同进化神经网络的医学大数据解译方法
- 批准号:62302153
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
基于轨迹大数据的公路运输碳排放精细化核算方法研究
- 批准号:42301524
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
相似海外基金
Identifying and addressing missingness and bias to enhance discovery from multimodal health data
识别和解决缺失和偏见,以增强多模式健康数据的发现
- 批准号:
10637391 - 财政年份:2023
- 资助金额:
$ 42.08万 - 项目类别:
PTSD and Autoimmune Disease: Towards Causal Effects, Risk Factors, and Mitigators
创伤后应激障碍 (PTSD) 和自身免疫性疾病:因果效应、危险因素和缓解措施
- 批准号:
10696671 - 财政年份:2023
- 资助金额:
$ 42.08万 - 项目类别:
Developing Explainable AI for Equitable Risk Stratification of Atrial Fibrillation and Stroke
开发可解释的人工智能以实现心房颤动和中风的公平风险分层
- 批准号:
10752585 - 财政年份:2023
- 资助金额:
$ 42.08万 - 项目类别:
Accessing and Expanding Natural Products Chemical Diversity by Big-data Analysis and Biosynthetic Investigation
通过大数据分析和生物合成研究获取和扩大天然产物化学多样性
- 批准号:
10714466 - 财政年份:2023
- 资助金额:
$ 42.08万 - 项目类别:
The Common Fund Knowledge Center (CFKC): providing scientifically valid knowledge from the Common Fund Data Ecosystem to a diverse biomedical research community.
共同基金知识中心(CFKC):从共同基金数据生态系统向多元化的生物医学研究社区提供科学有效的知识。
- 批准号:
10851461 - 财政年份:2023
- 资助金额:
$ 42.08万 - 项目类别: