Developing novel deep-learning based methods for deciphering non-coding gene regulatory code

开发基于深度学习的新型方法来破译非编码基因调控密码

基本信息

项目摘要

SUMMARY This project will contribute novel pre-trained DNA Bidirectional Encoder Representations from Transformers, called DNABERT, and associated deep-learning tools to decipher the language of non-coding DNA and facilitate integration of gene regulatory information from rapidly accumulating sequence data with NLM’s genetic databases (for example, dbSNP, dbGaP and ClinVar), which serve both scientists and the public health by helping identify the genetic components of disease. While the genetic code explaining how DNA is translated into proteins is universal, the regulatory code that determines when and how the genes are expressed varies across different cell-types and organisms. Non-coding DNA is highly complex due to the existence of polysemy and distant semantic relationship, from a language modeling perspective. Recently, deep learning methods have been used in unraveling the gene regulatory code, but failed to globally and robustly model such language features in the genome, especially in data-scarce scenarios. To address this challenge, we propose DNABERT to model DNA as a language, by adapting the idea of Bidirectional Encoder Representations from Transformers (BERT). Based on recent observations in natural language processing research, we hypothesize that pre-trained transformer-based neural network model offer a promising, and yet not fully explored, deep learning approach for a variety of sequence prediction tasks in the analysis of non-coding DNA. Our preliminary results showed that DNABERT on the human genome achieved state-of-the-art performance on promoter and splice-site prediction tasks, after easy fine-tuning on small task-specific data (Ji, Y. et al. 2020). The goal of our proposed research is to develop DNABERT for a variety of sequence prediction tasks, and benchmark with existing state- of-the-art deep-learning based methods. Specific aims are (1) develop novel deep-learning methods by adapting BERT; (2) apply the proposed deep-learning methods to specifically target non-coding DNA sequence analyses and predictions; and (3) predict and validate functional non-coding genetic variants by applying DNABERT prediction models. A major contribution of the proposed research is development of pre-trained DNABERT model and prediction algorithms, which present new powerful methods for analyses and predictions of DNA sequences. Since the pre-training of DNABERT is resource-intensive, we will provide the source code and pre-trained model at Github for future academic research. We will also develop an integrated web server to (1) deploy DNABERT model, (2) database to store the identified sequence features and predictions, and (3) tutorials to help users to apply DNABERT to their specific research problems. We anticipate that DNABERT can bring new advancements and insights to the bioinformatics community by bringing advanced language modeling perspective to gene regulation analyses.
概括 该项目将贡献来自 Transformers 的新型预训练 DNA 双向编码器表示, 称为 DNABERT 以及相关的深度学习工具,用于破译非编码 DNA 的语言并促进 将快速积累的序列数据中的基因调控信息与 NLM 的遗传整合 数据库(例如 dbSNP、dbGaP 和 ClinVar),通过以下方式为科学家和公共卫生服务: 帮助识别疾病的遗传成分,同时遗传密码解释 DNA 的翻译方式。 蛋白质的表达是通用的,但决定基因表达时间和方式的调控代码各不相同 由于多义性的存在,非编码 DNA 非常复杂。 和遥远的语义关系,从语言建模的角度来看,最近,深度学习方法已经出现。 已被用于解开基因调控密码,但未能对此类语言进行全球稳健的建模 基因组中的特征,特别是在数据稀缺的情况下,为了应对这一挑战,我们提出了 DNABERT。 通过采用变形金刚双向编码器表示的思想,将 DNA 建模为一种语言 (BERT)。根据最近对自然语言处理研究的观察,我们对其进行了预训练。 基于 Transformer 的神经网络模型提供了一种有前途但尚未充分探索的深度学习方法 我们的初步结果显示了非编码 DNA 分析中的各种序列预测任务。 DNABERT 在人类基因组状态上在启动子和剪接位点上实现了最先进的性能 在对小型任务特定数据进行简单微调后,预测任务(Ji,Y.等人,2020)。 研究的目的是开发用于各种序列预测任务的DNABERT,并与现有状态进行基准测试 基于最先进的深度学习的方法的具体目标是(1)通过适应开发新颖的深度学习方法。 BERT;(2)将所提出的深度学习方法应用于专门针对非编码DNA序列分析 和预测;(3) 通过应用 DNABERT 预测和验证功能性非编码遗传变异 所提出的研究的一个主要贡献是开发预训练的 DNABERT 模型。 和预测算法,为 DNA 序列分析和预测提供了新的强大方法。 由于DNABERT的预训练是资源密集型的,我们将提供源代码和预训练模型 我们还将开发一个集成的 Web 服务器来 (1) 部署 DNABERT。 模型,(2) 存储已识别的序列特征和预测的数据库,以及 (3) 帮助用户的教程 将 DNABERT 应用于他们的具体研究问题 我们预计 DNABERT 可以带来新的进步。 通过将先进的语言建模视角引入基因,为生物信息学界提供见解 监管分析。

项目成果

期刊论文数量(5)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Deep multi-omics integration by learning correlation-maximizing representation identifies prognostically stratified cancer subtypes.
通过学习相关性最大化表示进行深度多组学整合,识别预后分层的癌症亚型。
  • DOI:
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Ji, Yanrong;Dutta, Pratik;Davuluri, Ramana
  • 通讯作者:
    Davuluri, Ramana
DNABERT: pre-trained Bidirectional Encoder Representations from Transformers model for DNA-language in genome.
DNABERT:来自 Transformers 模型的预训练双向编码器表示,用于基因组中的 DNA 语言。
  • DOI:
  • 发表时间:
    2021-08-09
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Ji, Yanrong;Zhou, Zhihan;Liu, Han;Davuluri, Ramana V
  • 通讯作者:
    Davuluri, Ramana V
Personizing the prediction of future susceptibility to a specific disease.
对未来对特定疾病的易感性进行个性化预测。
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    3.7
  • 作者:
    Taha, Kamal;Davuluri, Ramana;Yoo, Paul;Spencer, Jesse
  • 通讯作者:
    Spencer, Jesse
DNABERT-S: LEARNING SPECIES-AWARE DNA EMBEDDING WITH GENOME FOUNDATION MODELS.
DNABERT-S:利用基因组基础模型学习物种感知 DNA 嵌入。
  • DOI:
  • 发表时间:
    2024-02-15
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Zhou, Zhihan;Wu, Weimin;Ho, Harrison;Wang, Jiayi;Shi, Lizhen;Davuluri, Ramana V;Wang, Zhong;Liu, Han
  • 通讯作者:
    Liu, Han
RP58 Represses Transcriptional Programs Linked to Nonneuronal Cell Identity and Glioblastoma Subtypes in Developing Neurons.
RP58 抑制与神经元发育中的非神经元细胞身份和胶质母细胞瘤亚型相关的转录程序。
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    5.3
  • 作者:
    Xiang, Chaomei;Frietze, Karla K;Bi, Yingtao;Li, Yanwen;Dal Pozzo, Valentina;Pal, Sharmistha;Alexander, Noah;Baubet, Valerie;D'Acunto, Victoria;Mason, Christopher E;Davuluri, Ramana V;Dahmane, Nadia
  • 通讯作者:
    Dahmane, Nadia
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

RAMANA V DAVULURI其他文献

RAMANA V DAVULURI的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('RAMANA V DAVULURI', 18)}}的其他基金

Developing novel deep-learning based methods for deciphering non-coding gene regulatory code
开发基于深度学习的新型方法来破译非编码基因调控密码
  • 批准号:
    10451673
  • 财政年份:
    2021
  • 资助金额:
    $ 33.08万
  • 项目类别:
Informatics Platform for Mammalian Gene Regulation at Isoform-level
异构体水平的哺乳动物基因调控信息学平台
  • 批准号:
    10273985
  • 财政年份:
    2020
  • 资助金额:
    $ 33.08万
  • 项目类别:
Informatics platform for mammalian gene regulation at isoform-level
异构体水平的哺乳动物基因调控信息学平台
  • 批准号:
    8658144
  • 财政年份:
    2013
  • 资助金额:
    $ 33.08万
  • 项目类别:
Informatics Platform for Mammalian Gene Regulation at Isoform-level
异构体水平的哺乳动物基因调控信息学平台
  • 批准号:
    9922347
  • 财政年份:
    2013
  • 资助金额:
    $ 33.08万
  • 项目类别:
Informatics Platform for Mammalian Gene Regulation at Isoform-level
异构体水平的哺乳动物基因调控信息学平台
  • 批准号:
    8843951
  • 财政年份:
    2013
  • 资助金额:
    $ 33.08万
  • 项目类别:
Bioinformatics Facility
生物信息学设施
  • 批准号:
    7945001
  • 财政年份:
    2009
  • 资助金额:
    $ 33.08万
  • 项目类别:
Genomewide discovery & analysis of alternative promoters
全基因组发现
  • 批准号:
    7371108
  • 财政年份:
    2006
  • 资助金额:
    $ 33.08万
  • 项目类别:
Genomewide discovery & analysis of alternative promoters
全基因组发现
  • 批准号:
    7678211
  • 财政年份:
    2006
  • 资助金额:
    $ 33.08万
  • 项目类别:
Genomewide discovery & analysis of alternative promoters
全基因组发现
  • 批准号:
    7226994
  • 财政年份:
    2006
  • 资助金额:
    $ 33.08万
  • 项目类别:
Genomewide discovery & analysis of alternative promoters
全基因组发现
  • 批准号:
    7580978
  • 财政年份:
    2006
  • 资助金额:
    $ 33.08万
  • 项目类别:

相似国自然基金

区域性农业干旱、强风、低温气象指数保险产品设计与应用研究
  • 批准号:
    71173139
  • 批准年份:
    2011
  • 资助金额:
    43.0 万元
  • 项目类别:
    面上项目
基于标杆管理的县级疾病预防控制机构绩效诊断与改进的关键技术研究
  • 批准号:
    71003025
  • 批准年份:
    2010
  • 资助金额:
    19.0 万元
  • 项目类别:
    青年科学基金项目
宏观分层虚拟标杆管理理论与方法创新研究
  • 批准号:
    70963003
  • 批准年份:
    2009
  • 资助金额:
    21.0 万元
  • 项目类别:
    地区科学基金项目
企业绩效评价的DEA-Benchmarking方法及动态博弈研究
  • 批准号:
    70571028
  • 批准年份:
    2005
  • 资助金额:
    16.5 万元
  • 项目类别:
    面上项目

相似海外基金

Novel Polymer-antibody Conjugates as Long-acting Therapeutics for Ocular Diseases
新型聚合物-抗体缀合物作为眼部疾病的长效治疗药物
  • 批准号:
    10760186
  • 财政年份:
    2023
  • 资助金额:
    $ 33.08万
  • 项目类别:
Next generation free energy perturbation (FEP) calculations--enabled by a novel integration of quantum mechanics (QM) with molecular dynamics allowing a large QM region and no sampling compromises
下一代自由能微扰 (FEP) 计算——通过量子力学 (QM) 与分子动力学的新颖集成实现,允许较大的 QM 区域且不会影响采样
  • 批准号:
    10698836
  • 财政年份:
    2023
  • 资助金额:
    $ 33.08万
  • 项目类别:
Development of an Efficient High Throughput Technique for the Identification of High-Impact Non-Coding Somatic Variants Across Multiple Tissue Types
开发一种高效的高通量技术,用于鉴定跨多种组织类型的高影响力非编码体细胞变异
  • 批准号:
    10662860
  • 财政年份:
    2023
  • 资助金额:
    $ 33.08万
  • 项目类别:
Novel approach to identify RNA-bound small molecules in vivo
体内鉴定 RNA 结合小分子的新方法
  • 批准号:
    10646626
  • 财政年份:
    2023
  • 资助金额:
    $ 33.08万
  • 项目类别:
Genome sequencing for evaluating the efficacy, specificity, and safety of human genome editing
用于评估人类基因组编辑的有效性、特异性和安全性的基因组测序
  • 批准号:
    10667893
  • 财政年份:
    2023
  • 资助金额:
    $ 33.08万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了