Exploiting data driven computational approaches for understanding protein structure and function in InterPro and Pfam

利用数据驱动的计算方法来理解 InterPro 和 Pfam 中的蛋白质结构和功能

基本信息

  • 批准号:
    BB/S020381/1
  • 负责人:
  • 金额:
    $ 103.95万
  • 依托单位:
  • 依托单位国家:
    英国
  • 项目类别:
    Research Grant
  • 财政年份:
    2019
  • 资助国家:
    英国
  • 起止时间:
    2019 至 无数据
  • 项目状态:
    已结题

项目摘要

Proteins are biological macromolecules that perform a diverse array of crucial functions, from enzymes (e.g. the entities responsible for fermentation) to transporters (e.g. hemoglobin in the blood) to mechanical structures (e.g. actin and myosin in muscle). Proteins are synthesized as linear polymers of building blocks called amino acids. They usually fold into complex three-dimensional (3D) structures, and typically interact with other proteins and molecules to perform their function. Knowledge of protein sequences can facilitate insights into hitherto undiscovered enzymes with potential applications in the biotechnology sector, or novel drugs of interest to the pharmaceutical industry. Detailed understanding of the functional architecture of proteins, including the arrangement of amino acids in a 3D structure, enables scientists to diagnose diseases as well as design more effective enzymes. These days, our ability to generate new protein sequences based on modern high-throughput DNA sequencing (HTS) techniques far outstrips our ability to functionally characterise them. Thus, most sequences are computationally annotated, by identifying similarities between new sequences and the few experimentally characterised examples, using these to infer function (i.e. annotate). More recently, HTS has been applied directly to environmental samples to discover previously uncultured bacteria and single cell eukaryotes, and to enable the reconstruction of large and complex genomes, like plants. Such approaches are correcting many of the historical biases in the protein sequence databases. However, for humankind to understand and utilise these data, sequences need to be functionally annotated, which is best accomplished using the information gleaned from sets of related sequences (known as protein families). InterPro is a world leading protein family resource that merges information from 13 different specialist databases to present the user with comprehensive functional analysis of sequences. One of its member databases, Pfam, is a collection of protein domain families containing functional annotations. Both InterPro and Pfam are well-established primary resources in the field of protein research. In this application, we propose crucial developments to both of these resources in order to augment their utility, functionality and scalability, as well as uniquely position them to tackle imminent advances in the field. We will leverage pre-established links with other protein databases and concurrently build additional pipelines to develop and exchange the latest information between these existing and new resources.We will improve coverage of protein sequences originating from environmental sources by building families for novel sets (or clusters) of related proteins. Considering the fundamental association between protein structure and function, we will develop a pipeline that will not only import structural models for Pfam entries and present them via the website, but will also ensure that the models remain up to date. To increase coverage and functional annotations in both resources, we will integrate new resources to provide sub-domain classifications, and improve annotations through combined literature searches and enhanced curation tools. To refine annotations, we will adopt a new algorithm called TreeGrafter to InterProScan (our software package that performs automatic annotations of protein sequences), and integrate controlled vocabularies for protein attributes from databases like PANTHER with those already in InterPro. We will evaluate the performance of an upgraded version of the HMMER software that is widely used to build protein families, including Pfam, to improve future scalability. Finally, we will focus on eight genomes of agricultural importance, including chicken, salmon, and wheat, by systematically annotating 2000 associated entries in Pfam and by extension, InterPro.
蛋白质是执行多种关键功能的生物大分子,从酶(例如负责发酵的实体)到转运蛋白(例如血液中的血红蛋白)到机械结构(例如肌肉中的肌动蛋白和肌球蛋白)。蛋白质被合成为称为氨基酸的结构单元的线性聚合物。它们通常折叠成复杂的三维 (3D) 结构,并且通常与其他蛋白质和分子相互作用以执行其功能。了解蛋白质序列可以有助于深入了解迄今为止尚未发现的在生物技术领域具有潜在应用的酶,或制药行业感兴趣的新药物。详细了解蛋白质的功能结构,包括 3D 结构中氨基酸的排列,使科学家能够诊断疾病并设计更有效的酶。如今,我们基于现代高通量 DNA 测序 (HTS) 技术生成新蛋白质序列的能力远远超过了我们对其进行功能表征的能力。因此,通过识别新序列和少数实验表征示例之间的相似性,对大多数序列进行计算注释,并使用它们来推断功能(即注释)。最近,高温超导技术已被直接应用于环境样本,以发现以前未培养的细菌和单细胞真核生物,并能够重建大型且复杂的基因组,例如植物。这些方法正在纠正蛋白质序列数据库中的许多历史偏差。然而,为了人类理解和利用这些数据,需要对序列进行功能注释,这最好是使用从相关序列组(称为蛋白质家族)收集的信息来完成。 InterPro 是世界领先的蛋白质家族资源,它合并了来自 13 个不同专业数据库的信息,为用户提供全面的序列功能分析。其成员数据库之一 Pfam 是包含功能注释的蛋白质结构域家族的集合。 InterPro 和 Pfam 都是蛋白质研究领域成熟的主要资源。在此应用中,我们建议对这两种资源进行关键开发,以增强其实用性、功能性和可扩展性,并使其处于独特的地位,以应对该领域即将取得的进展。我们将利用与其他蛋白质数据库预先建立的链接,同时建立额外的管道来开发和交换这些现有资源和新资源之间的最新信息。我们将通过构建新集合(或簇)的家族来提高源自环境来源的蛋白质序列的覆盖范围)的相关蛋白质。考虑到蛋白质结构和功能之间的基本关联,我们将开发一个管道,不仅可以导入 Pfam 条目的结构模型并通过网站呈现它们,而且还可以确保模型保持最新状态。为了增加这两种资源的覆盖范围和功能注释,我们将整合新资源以提供子领域分类,并通过结合文献搜索和增强的管理工具来改进注释。为了完善注释,我们将在 InterProScan(我们的软件包执行蛋白质序列自动注释)中采用一种名为 TreeGrafter 的新算法,并将来自 PANTHER 等数据库的蛋白质属性受控词汇表与 InterPro 中已有的词汇表相集成。我们将评估 HMMER 软件升级版本的性能,该软件广泛用于构建蛋白质家族(包括 Pfam),以提高未来的可扩展性。最后,我们将通过系统地注释 Pfam 和 InterPro 中的 2000 个相关条目,重点关注对农业具有重要意义的 8 个基因组,包括鸡、鲑鱼和小麦。

项目成果

期刊论文数量(6)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
InterPro in 2022.
2022 年 InterPro。
  • DOI:
    http://dx.10.1093/nar/gkac993
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    14.9
  • 作者:
    Paysan
  • 通讯作者:
    Paysan
EMBL's European Bioinformatics Institute (EMBL-EBI) in 2022.
EMBL 欧洲生物信息学研究所 (EMBL-EBI) 将于 2022 年成立。
  • DOI:
    http://dx.10.1093/nar/gkac1098
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    14.9
  • 作者:
    Thakur M
  • 通讯作者:
    Thakur M
Pfam: The protein families database in 2021.
Pfam:2021 年蛋白质家族数据库。
  • DOI:
    http://dx.10.1093/nar/gkaa913
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    14.9
  • 作者:
    Mistry J
  • 通讯作者:
    Mistry J
The InterPro protein families and domains database: 20 years on.
InterPro 蛋白质家族和结构域数据库:20 年过去了。
  • DOI:
    http://dx.10.1093/nar/gkaa977
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    14.9
  • 作者:
    Blum M
  • 通讯作者:
    Blum M
The European Bioinformatics Institute (EMBL-EBI) in 2021.
欧洲生物信息学研究所 (EMBL-EBI),2021 年。
  • DOI:
    http://dx.10.1093/nar/gkab1127
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    14.9
  • 作者:
    Cantelli G
  • 通讯作者:
    Cantelli G
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Alex Bateman其他文献

Bioinformatics Applications Note Data and Text Mining the Ccpn Metabolomics Project: a Fast Protocol for Metabolite Identification by 2d-nmr
生物信息学应用笔记 Ccpn 代谢组学项目的数据和文本挖掘:通过 2d-nmr 进行代谢物识别的快速协议
  • DOI:
    10.1186/s13321-015-0065-7
  • 发表时间:
    2015-05-09
  • 期刊:
  • 影响因子:
    8.6
  • 作者:
    Francesca Chignola;Silvia Mari;T. Stevens;R. Fogh;V. Mannella;W. Boucher;G. Musco;Alex Bateman
  • 通讯作者:
    Alex Bateman
Bioinformatics Applications Note Genetics and Population Analysis R/mpmap: a Computational Platform for the Genetic Analysis of Multiparent Recombinant Inbred Lines
生物信息学应用笔记 遗传学和群体分析 R/mpmap:多亲本重组自交系遗传分析的计算平台
  • DOI:
    10.1111/pbi.12895
  • 发表时间:
    2024-09-14
  • 期刊:
  • 影响因子:
    13.8
  • 作者:
    B. E. Huang;A. George;Alex Bateman
  • 通讯作者:
    Alex Bateman
Bioinformatics Original Paper Predicting the Insurgence of Human Genetic Diseases Associated to Single Point Protein Mutations with Support Vector Machines and Evolutionary Information
生物信息学原始论文利用支持向量机和进化信息预测与单点蛋白质突变相关的人类遗传疾病的暴发
  • DOI:
  • 发表时间:
    1970-01-01
  • 期刊:
  • 影响因子:
    0
  • 作者:
    E. Capriotti;R. Calabrese;R. Casadio;Alex Bateman
  • 通讯作者:
    Alex Bateman
Outline structure of the human L1 cell adhesion molecule and the sites where mutations cause neurological disorders.
人类 L1 细胞粘附分子的轮廓结构以及突变导致神经系统疾病的位点。
  • DOI:
    10.1002/j.1460-2075.1996.tb00993.x
  • 发表时间:
    1996-11-01
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Alex Bateman;M. Jouet;John MacFarlane;Jian;Susan Kenwrick;Cyrus Chothia
  • 通讯作者:
    Cyrus Chothia
Bioinformatics Applications Note Data and Text Mining Mining and Integration of Pathway Diagrams from Imaging Data
生物信息学应用笔记数据和文本挖掘从成像数据挖掘和整合通路图
  • DOI:
  • 发表时间:
    1970-01-01
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Sergey Kozhenkov;M. Baitaluk;Alex Bateman
  • 通讯作者:
    Alex Bateman

Alex Bateman的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Alex Bateman', 18)}}的其他基金

Improving accuracy, coverage, and sustainability of functional protein annotation in InterPro, Pfam and FunFam using Deep Learning methods
使用深度学习方法提高 InterPro、Pfam 和 FunFam 中功能蛋白注释的准确性、覆盖范围和可持续性
  • 批准号:
    BB/X018660/1
  • 财政年份:
    2024
  • 资助金额:
    $ 103.95万
  • 项目类别:
    Research Grant
UKRI/BBSRC-NSF/BIO: Unifying Pfam protein sequence and ECOD structural classifications with structure models
UKRI/BBSRC-NSF/BIO:通过结构模型统一 Pfam 蛋白质序列和 ECOD 结构分类
  • 批准号:
    BB/X012492/1
  • 财政年份:
    2023
  • 资助金额:
    $ 103.95万
  • 项目类别:
    Research Grant
Rfam: The community resource for RNA families
Rfam:RNA 家族的社区资源
  • 批准号:
    BB/S020462/1
  • 财政年份:
    2019
  • 资助金额:
    $ 103.95万
  • 项目类别:
    Research Grant
RNAcentral, the RNA sequence database
RNAcentral,RNA 序列数据库
  • 批准号:
    BB/N019199/1
  • 财政年份:
    2017
  • 资助金额:
    $ 103.95万
  • 项目类别:
    Research Grant
Rfam: Towards a sustainable resource for understanding the genomic functional ncRNA repertoire
Rfam:寻找了解基因组功能 ncRNA 库的可持续资源
  • 批准号:
    BB/M011690/1
  • 财政年份:
    2015
  • 资助金额:
    $ 103.95万
  • 项目类别:
    Research Grant
Keeping pace with protein sequence annotation; consolidating and enhancing Pfam and InterPro's methodologies for functional prediction
与蛋白质序列注释保持同步;
  • 批准号:
    BB/L024136/1
  • 财政年份:
    2014
  • 资助金额:
    $ 103.95万
  • 项目类别:
    Research Grant
The RNAcentral database of non-coding RNAs
非编码RNA的RNA中央数据库
  • 批准号:
    BB/J019232/1
  • 财政年份:
    2012
  • 资助金额:
    $ 103.95万
  • 项目类别:
    Research Grant
Embracing new technologies to streamline improve and sustain InterPro and its contributing databases
采用新技术来简化、改进和维护 InterPro 及其贡献数据库
  • 批准号:
    BB/F010435/1
  • 财政年份:
    2008
  • 资助金额:
    $ 103.95万
  • 项目类别:
    Research Grant

相似国自然基金

面向智能车辆跟踪的数据机理融合驱动建模与安全模糊控制
  • 批准号:
    62373287
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目
可信实测数据驱动的自动驾驶险态场景构建与测评方法
  • 批准号:
    52372339
  • 批准年份:
    2023
  • 资助金额:
    54 万元
  • 项目类别:
    面上项目
数据知识联合驱动的PHM协同型调度集成与优化
  • 批准号:
    62373288
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目
多源不确定性数据驱动的深水集输系统一体化状态监测研究
  • 批准号:
    62373277
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目
基于混合数据驱动的短时临近波浪模拟预测研究
  • 批准号:
    52301336
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

Understanding and exploiting novel therapeutic vulnerabilities of RIT1-driven lung cancer
了解和利用 RIT1 驱动的肺癌的新治疗漏洞
  • 批准号:
    10641671
  • 财政年份:
    2021
  • 资助金额:
    $ 103.95万
  • 项目类别:
Understanding and exploiting novel therapeutic vulnerabilities of RIT1-driven lung cancer
了解和利用 RIT1 驱动的肺癌的新治疗漏洞
  • 批准号:
    10211377
  • 财政年份:
    2021
  • 资助金额:
    $ 103.95万
  • 项目类别:
Understanding and exploiting novel therapeutic vulnerabilities of RIT1-driven lung cancer
了解和利用 RIT1 驱动的肺癌的新治疗漏洞
  • 批准号:
    10378686
  • 财政年份:
    2021
  • 资助金额:
    $ 103.95万
  • 项目类别:
Exploiting data driven computational approaches for understanding protein structure and function in InterPro and Pfam
利用数据驱动的计算方法来理解 InterPro 和 Pfam 中的蛋白质结构和功能
  • 批准号:
    BB/S020039/1
  • 财政年份:
    2020
  • 资助金额:
    $ 103.95万
  • 项目类别:
    Research Grant
Exploiting Ecology and Evolution to Prevent Therapy Resistance in EGFR-Driven Lung Cancer
利用生态学和进化来预防 EGFR 驱动的肺癌的治疗耐药性
  • 批准号:
    10533732
  • 财政年份:
    2019
  • 资助金额:
    $ 103.95万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了