肽碎片离子强度统计建模算法与应用

项目介绍
AI项目解读

基本信息

  • 批准号:
    31500669
  • 项目类别:
    青年科学基金项目
  • 资助金额:
    20.0万
  • 负责人:
  • 依托单位:
  • 学科分类:
    C2103.生命组学技术
  • 结题年份:
    2018
  • 批准年份:
    2015
  • 项目状态:
    已结题
  • 起止时间:
    2016-01-01 至2018-12-31

项目摘要

The first principle in mass spectrometry-based proteomics is the fragmentation mechanisms of protonated peptides under certain dissociation conditions. Statistical modeling of peptide fragment ion intensities can bring us a comprehensive understanding of peptide fragmentation mechanisms, which is critically essential to annotation of mass spectral peaks, scoring of peptide-spectrum matches, and prediction of theoretical mass spectra. By transforming the problem of intensity pattern modeling into the problem of sequence tagging, we are able to adopt a supervised structured learning model—conditional random fields—to derive intensity models from large annotated mass spectrometry data sets. This structured model has the ability to incorporate the dependence between neighbouring fragment peaks and the influence of various peptide physio-chemical features, which are not considered by existing peptide fragmentation models. Thus, the above three problems can be solved under this single universal computational framework by applying the forward-backward algorithm, the forward or backward algorithm, and the Viterbi algorithm separately. As a result, the confidence of peak annotation, the quality of peptide-spectrum matches and the accuracy of prediction of theoretical mass spectrum are expected to be remarkably improved. Our ultimate goal is to develop a new generation of software system based on the new algorithms to help researchers interpret their proteomic data more accurately, confidently, and efficiently.
质子化肽在特定裂解条件下的碎裂机理是基于质谱蛋白质组学的“第一性原理”问题。对肽碎片离子强度进行统计建模,可以获得对肽碎裂机理的深刻认识,这对解决实验谱峰标注、肽-谱匹配打分、理论质谱预测三个数据分析基本问题来说至关重要。通过将碎片离子强度建模问题转化为序列标注问题,我们得以利用一个有监督结构化学习模型——条件随机场来从海量标注质谱数据中学习碎片离子强度模型。通过此结构化模型,相邻碎片离子间的依赖关系和各种肽理化特征对强度的影响被纳入进来,这是现有肽碎裂模型所不具备的考量因素。由此,在这个统一的计算框架下,上述三个基本问题可以分别通过前向-后向算法、前向或后向算法、Viterbi算法来一一解决。这个计算框架预期能够显著提高谱峰标注的可信度、肽-谱匹配的品质标准和理论质谱预测的准确度。最终目标是基于新算法开发新一代的数据分析软件系统,以帮助研究者更加精确、可靠、高效地解析蛋白质组数据。

结项摘要

肽碎片离子强度的精确建模,是蛋白质组学研究的基础问题,对于深刻理解肽碎裂机理和深入分析肽谱数据至关重要。随着质谱仪数据产出质量的提升和数据产出速度的提高,来自真实样品和合成序列的标注/非标注数据不断涌现。利用数据驱动的方法对肽碎片离子强度进行建模,并用以变革传统搜索引擎的打分函数,已变得切实可行和日趋紧迫。本项目主要工作包括:研究了大规模高可信肽谱标注数据的获取方法,利用多个搜索引擎肽鉴定结果,在保证与单个引擎相比肽鉴定结果数量相当的前提下,有效降低假发现率;针对肽碎片离子特征的表示和组合,研究了序列特征与理化特征对不同模型的作用,研究了不同特征在特定模型下的重要性程度,发现传统理化特征在不同模型下的贡献度存在显著差异;先后研究了利用梯度提升决策树(GBDT)、深度信念网络(DBN)、序列到序列(Seq2Seq)等模型建模b、y碎片离子强度的方法,发现Seq2Seq模型能获得最好性能,且优于现有代表性方法如MassAnalyzer、OpenMS-Simulator和pDeep;研究了利用序列到序列(Seq2Seq)模型,对ay、by型内部碎片离子强度进行建模的方法,为全谱预测奠定了基础;研究了基于双向LSTM与CRF模型相结合的肽碎片离子强度建模方法,获得了较高的建模精度,有望作为基于强度模型的肽-谱打分的计算框架;联合定量蛋白质组学和表观转录组学,研究了微生物组tRNA上的修饰模式与蛋白质合成之间的联系,并研发了tRNA修饰分析软件工具tRNA-seq-tools。上述研究工作在蛋白质组学和表观转录组学数据分析中具有重要的实际应用价值。

项目成果

期刊论文数量(2)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
串联质谱中肽碎片离子强度预测方法比较研究
  • DOI:
    --
  • 发表时间:
    2018
  • 期刊:
    中国科技论文在线
  • 影响因子:
    --
  • 作者:
    高帮鹏;王海鹏;肖罗霖;闵鑫
  • 通讯作者:
    闵鑫
Microbiome characterization by high-throughput transfer RNA sequencing and modification analysis
  • DOI:
    10.1038/s41467-018-07675-z
  • 发表时间:
    2018-12-17
  • 期刊:
    NATURE COMMUNICATIONS
  • 影响因子:
    16.6
  • 作者:
    Schwartz, Michael H.;Wang, Haipeng;Eren, A. Murat
  • 通讯作者:
    Eren, A. Murat
共 2 条
  • 1
前往

其他文献

极化散射的各向异性分析及应用
  • DOI:
    10.15943/j.cnki.fdxb-jns.2017.05.015
  • 发表时间:
    2017
  • 期刊:
    复旦学报(自然科学版)
  • 影响因子:
    --
  • 作者:
    李岳涵;王海鹏;张海;徐丰
  • 通讯作者:
    徐丰
川西亚高山3个优势树种不同径级根系分解特征
  • DOI:
    --
  • 发表时间:
    2015
  • 期刊:
    应用生态学报
  • 影响因子:
    --
  • 作者:
    王海鹏;熊莉;聂富育;徐振锋
  • 通讯作者:
    徐振锋
面向全生命周期的本土物流企业竞争力发展路径研究
  • DOI:
    --
  • 发表时间:
    --
  • 期刊:
    武汉理工大学学报(社会科学版)
  • 影响因子:
    --
  • 作者:
    刘伟华;刘秉镰;陈伟博;王海鹏
  • 通讯作者:
    王海鹏
川西亚高山三种优势树种不同根序根系分解特征.
  • DOI:
    --
  • 发表时间:
    2015
  • 期刊:
    应用生态学报
  • 影响因子:
    --
  • 作者:
    王海鹏;熊莉;聂富育;徐振锋
  • 通讯作者:
    徐振锋
川西亚高山三种优势树种不同根序碳氮磷化学计量特征
  • DOI:
    --
  • 发表时间:
    2015
  • 期刊:
    应用生态学报
  • 影响因子:
    --
  • 作者:
    殷睿;王海鹏;张艳;徐振锋
  • 通讯作者:
    徐振锋
共 87 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 18
前往

正在为您生成内容...