转录因子结合位点序列基元挖掘的计算方法研究

项目介绍
AI项目解读

基本信息

  • 批准号:
    31571364
  • 项目类别:
    面上项目
  • 资助金额:
    63.0万
  • 负责人:
  • 依托单位:
  • 学科分类:
    C0608.生物数据资源与分析方法
  • 结题年份:
    2019
  • 批准年份:
    2015
  • 项目状态:
    已结题
  • 起止时间:
    2016-01-01 至2019-12-31

项目摘要

Transcription factors (TFs) can modulate gene expression patterns and hence are key components of cellular regulatory networks. TFs bind to DNA in a sequence-specific manner. The relative preferences of TFs to various nucleotide sequences are often referred to as TF binding site (TFBS) motifs. These motifs are of considerable interest to biological study, as they are central to understanding the mechanisms of gene expression. In this project, we systematically study the computational methods for the motifs discovery of transcription factor binding sites. Firstly, we propose a discriminative motif finder for discovering high quality initial motifs between two sequence datasets, which uses area under receiver-operating characteristic curve (AUC) as a measure of the discriminating power of motifs and incorporate novel search strategies. Secondly, we propose a new framework for estimating generative probabilistic motif models via a contrasting process, which can provably learn the optimal motif parameter by discriminating the observed binding data from samples from an adaptive noise distribution. Finally, we reformulate the discriminative motif finding problem into a multiple-instance learning framework, thereby more properly modeling the underlying inference problem and facilitating the incorporation of advanced machine learning and optimization tools. The development of this project will promote the understanding of the underlying mechanisms of regulation. It will also help to understand the cells from the system level and explain the pathogenesis of the disease.
转录因子能够调控基因表达的模式,因而是细胞调控网络的关键组成部分之一。转录因子和DNA序列间的结合关系是具有序列偏好性的,转录因子对于不同核苷酸序列的相对结合偏好通常被称为转录因子结合位点基元,由于它们在基因表达机制理解中的核心地位,对于生物学的研究具有极其重要的意义。在本项目中,我们将系统地研究转录因子结合位点基元的计算挖掘方法。首先,提出一种新的判别方法用于在两组序列间寻找高质量的基元初始解,这种方法采用受试者工作特征曲线下面积来判别解的判别能力,并引入了新颖的搜索策略。然后,我们将基元生成模型参数学习问题转化为对比训练过程,从而可以通过将观测数据和人工数据对比,最优地学习模型参数。最后,我们将判别基元模型训练转化为多示例学习问题,从而可以更适当地建模其潜在的推断问题,并方便引入新的机器学习和优化计算工具。本项目的成功实施将有助于认识调控的内在机制,并帮助进一步从系统层次来理解细胞活动

结项摘要

转录因子可以与基因上的调控序列发生绑定,从而激活或抑制目标基因的表达。由于它们在基因表达机制中的核心地位,对于生物学的研究具有极其重要的意义。在本项目中,我们将系统地研究转录因子结合位点基元的计算挖掘方法。首先,提出一种基于受试者工作特征曲线下面积的新型判别方法,并结合新颖的搜索策略用于寻找两组序列间的高质量基元初始解。其次,将基元生成模型参数学习问题转化为对比训练过程,从而可以将观测数据和人工数据进行对比来最优学习模型参数。最后,将基元判别模型转化为多示例学习问题,从空间关系和高阶关系来建模其潜在的推断问题,并引入新的机器学习和优化计算工具。本项目的成功实施将有助于认识基因表达调控的内在机制,并帮助从系统层次来理解细胞活动以及解释疾病的发病机理。

项目成果

期刊论文数量(16)
专著数量(0)
科研奖励数量(0)
会议论文数量(9)
专利数量(0)
Recurrent Neural Network for Predicting Transcription Factor Binding Sites.
用于预测转录因子结合位点的循环神经网络
  • DOI:
    10.1038/s41598-018-33321-1
  • 发表时间:
    2018-10-15
  • 期刊:
    Scientific reports
  • 影响因子:
    4.6
  • 作者:
    Shen Z;Bao W;Huang DS
  • 通讯作者:
    Huang DS
A novel deep model with multi-loss and efficient training for person re-identification
一种新颖的多重损失深度模型,用于人员重新识别的高效训练
  • DOI:
    10.1016/j.neucom.2018.03.073
  • 发表时间:
    2019
  • 期刊:
    Neurocomputing
  • 影响因子:
    6
  • 作者:
    Wu Di;Zheng Si Jia;Bao Wen Zheng;Zhang Xiao Ping;Yuan Chang An;Huang De Shuang
  • 通讯作者:
    Huang De Shuang
An efficient method to transcription factor binding sites imputation via simultaneous completion of multiple matrices with positional consistency
通过同时完成具有位置一致性的多个矩阵来估算转录因子结合位点的有效方法
  • DOI:
    10.1039/c7mb00155j
  • 发表时间:
    2017-09-01
  • 期刊:
    MOLECULAR BIOSYSTEMS
  • 影响因子:
    --
  • 作者:
    Guo, Wei-Li;Huang, De-Shuang
  • 通讯作者:
    Huang, De-Shuang
LMMO: A Large Margin Approach for Refining Regulatory Motifs
LMMO:细化监管模式的大利润方法
  • DOI:
    10.1109/tcbb.2017.2691325
  • 发表时间:
    2018
  • 期刊:
    IEEE/ACM Transactions on Computational Biology and Bioinformatics
  • 影响因子:
    --
  • 作者:
    Zhu Lin;Zhang Hong Bo;Huang De shuang
  • 通讯作者:
    Huang De shuang
Collaborative Completion of Transcription Factor Binding Profiles via Local Sensitive Unified Embedding
通过局部敏感统一嵌入协同完成转录因子结合图谱
  • DOI:
    10.1109/tnb.2016.2625823
  • 发表时间:
    2016-11
  • 期刊:
    IEEE Transactions on NanoBioscience
  • 影响因子:
    3.9
  • 作者:
    Zhu Lin;Guo Wei Li;Lu Canyi;Huang De Shuang
  • 通讯作者:
    Huang De Shuang
共 16 条
  • 1
  • 2
  • 3
  • 4
前往

其他文献

智能计算进展与发展趋势
  • DOI:
    --
  • 发表时间:
    --
  • 期刊:
    《中国科学院院刊》, Vol.21, No.1, 2006, pp.46-52
  • 影响因子:
    --
  • 作者:
    黄德双
  • 通讯作者:
    黄德双
语义推荐算法研究综述
  • DOI:
    --
  • 发表时间:
    2016
  • 期刊:
    电子学报
  • 影响因子:
    --
  • 作者:
    张波;喻剑;向阳;黄德双
  • 通讯作者:
    黄德双
一种鲁棒的监督流形学习算法及其在植物叶片分类中的应用
  • DOI:
    --
  • 发表时间:
    --
  • 期刊:
    模式识别与人工智能
  • 影响因子:
    --
  • 作者:
    张善文;黄德双
  • 通讯作者:
    黄德双
叶片图像特征提取与识别技术的研
  • DOI:
    --
  • 发表时间:
    --
  • 期刊:
    《计算机工程与应用》,Vol.42,No.3,pp.190-193, 2006
  • 影响因子:
    --
  • 作者:
    王晓峰;黄德双;杜吉祥;张国军
  • 通讯作者:
    张国军
共 4 条
  • 1
前往

正在为您生成内容...

黄德双的其他基金

基于肝癌多组学数据集成的肝癌生物标志物智能解析与预测方法研究
  • 批准号:
    62333018
  • 批准年份:
    2023
  • 资助金额:
    237 万元
  • 项目类别:
    重点项目
基因组非编码区变异与转录因子调控关系的计算分析方法研究
  • 批准号:
    61732012
  • 批准年份:
    2017
  • 资助金额:
    270.0 万元
  • 项目类别:
    重点项目
基于机器学习的蛋白质相互作用与功能预测方法研究
  • 批准号:
    61133010
  • 批准年份:
    2011
  • 资助金额:
    280.0 万元
  • 项目类别:
    重点项目