A UNIFIED MULTITASK ARCHITECTURE FOR PREDICTING LOCAL PROTEIN PROPERTIES
用于预测局部蛋白质特性的统一多任务架构
基本信息
- 批准号:8365897
- 负责人:
- 金额:$ 2.14万
- 依托单位:
- 依托单位国家:美国
- 项目类别:
- 财政年份:2011
- 资助国家:美国
- 起止时间:2011-09-01 至 2012-06-30
- 项目状态:已结题
- 来源:
- 关键词:Amino Acid SequenceAmino AcidsArchitectureBiological Neural NetworksBiologyComputational BiologyComputer ArchitecturesDNA BindingDependencyEngineeringFundingFungal GenomeGrantJointsLabelLearningModelingNational Center for Research ResourcesNatural Language ProcessingOutputPatternPeptide Sequence DeterminationPeptide Signal SequencesPerformancePrincipal InvestigatorPropertyProteinsRelative (related person)ResearchResearch InfrastructureResourcesSolventsSourceStructureTimeTrainingUnited States National Institutes of HealthWorkcostmultitasknovelsynthetic protein
项目摘要
This subproject is one of many research subprojects utilizing the resources
provided by a Center grant funded by NIH/NCRR. Primary support for the subproject
and the subproject's principal investigator may have been provided by other sources,
including other NIH sources. The Total Cost listed for the subproject likely
represents the estimated amount of Center infrastructure utilized by the subproject,
not direct funding provided by the NCRR grant to the subproject or subproject staff.
A variety of functionally important protein properties, such as
secondary structure, transmembrane topology and solvent accessibility,
can be encoded as a labeling of amino acids. Indeed, the prediction
of such properties from the primary amino acid sequence is one of the
core projects of computational biology. Accordingly, a panoply of
approaches have been developed for predicting such properties;
however, most such approaches focus on solving a single task at a
time. Motivated by recent, successful work in natural language
processing, we propose to use multitask learning to train a
single, joint model that exploits the dependencies among these various
labeling tasks.
We describe a deep neural network architecture
that, given a protein sequence, outputs a host of predicted local
properties, including secondary structure, solvent accessibility,
transmembrane topology, signal peptides and DNA-binding residues. The
network is trained jointly on all these tasks in a supervised fashion,
augmented with a novel form of semi-supervised learning in which the
model is trained to distinguish between local patterns from natural
and synthetic protein sequences. The task-independent architecture of
the network obviates the need for task-specific feature
engineering. We demonstrate that, for all of the tasks that we
considered, our approach leads to statistically significant
improvements in performance, relative to a single task neural network
approach, and that the resulting model achieves state-of-the-art
performance.
该子项目是利用资源的众多研究子项目之一
由 NIH/NCRR 资助的中心拨款提供。子项目的主要支持
并且子项目的主要研究者可能是由其他来源提供的,
包括其他 NIH 来源。 子项目可能列出的总成本
代表子项目使用的中心基础设施的估计数量,
NCRR 赠款不直接向子项目或子项目工作人员提供资金。
多种具有重要功能的蛋白质特性,例如
二级结构、跨膜拓扑和溶剂可及性,
可以被编码为氨基酸的标记。 确实,预测
一级氨基酸序列的这些特性之一是
计算生物学的核心项目。 因此,一整套
已经开发出预测此类特性的方法;
然而,大多数此类方法侧重于一次性解决单个任务
时间。 受到最近自然语言领域成功工作的激励
处理,我们建议使用多任务学习来训练
单一的联合模型,利用这些不同的之间的依赖关系
标记任务。
我们描述了深度神经网络架构
给定一个蛋白质序列,输出一系列预测的局部
性质,包括二级结构、溶剂可及性、
跨膜拓扑、信号肽和 DNA 结合残基。 这
网络以监督方式针对所有这些任务进行联合训练,
增强了一种新颖的半监督学习形式,其中
模型被训练来区分局部模式和自然模式
和合成蛋白质序列。任务无关的架构
网络消除了对特定于任务的功能的需要
工程。我们证明,对于我们所执行的所有任务
考虑到,我们的方法导致统计显着
相对于单任务神经网络的性能改进
方法,并且所得模型达到了最先进的水平
表现。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
William Noble其他文献
William Noble的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('William Noble', 18)}}的其他基金
LEARNING SPARSE MODELS FOR A DYNAMIC BAYESIAN NETWORK CLASSIFIER OF PROTEIN SECO
学习蛋白质 SECO 动态贝叶斯网络分类器的稀疏模型
- 批准号:
8365898 - 财政年份:2011
- 资助金额:
$ 2.14万 - 项目类别:
EFFICIENT MARGINALIZATION TO COMPUTE PROTEIN POSTERIOR PROBABILITIES FROM SHOTGU
通过 Shotgu 进行有效边缘化计算蛋白质后验概率
- 批准号:
8365888 - 财政年份:2011
- 资助金额:
$ 2.14万 - 项目类别:
ON USING SAMPLES OF KNOWN PROTEIN CONTENT TO ASSESS THE STATISTICAL CALIBRATION
关于使用已知蛋白质含量的样品来评估统计校准
- 批准号:
8365887 - 财政年份:2011
- 资助金额:
$ 2.14万 - 项目类别:
PRECURSOR CHARGE STATE PREDICTION FOR ELECTRON TRANSFER DISSOCIATION TANDEM MASS
电子转移解离串联质量的前体电荷态预测
- 批准号:
8365872 - 财政年份:2011
- 资助金额:
$ 2.14万 - 项目类别:
A DYNAMIC BAYESIAN NETWORK FOR IDENTIFYING PROTEIN BINDING FOOTPRINTS FROM SINGL
一种用于识别单个蛋白质结合足迹的动态贝叶斯网络
- 批准号:
8365880 - 财政年份:2011
- 资助金额:
$ 2.14万 - 项目类别:
COMPUTATIONAL CHARACTERIZATION OF HOMING ENDONUCLEASE BINDING SPECIFICITY
归巢核酸内切酶结合特异性的计算表征
- 批准号:
8365906 - 财政年份:2011
- 资助金额:
$ 2.14万 - 项目类别:
SOFTWARE DISTRIBUTED BY THE NOBLE LAB, 2010-2011
NOBLE LAB 分发的软件,2010-2011 年
- 批准号:
8365904 - 财政年份:2011
- 资助金额:
$ 2.14万 - 项目类别:
LARGE-SCALE PREDICTION OF PROTEIN-PROTEIN INTERACTIONS FROM STRUCTURE
从结构大规模预测蛋白质-蛋白质相互作用
- 批准号:
8171275 - 财政年份:2010
- 资助金额:
$ 2.14万 - 项目类别:
相似国自然基金
基于D-氨基酸改性拉曼探针的细菌耐药性快速检测
- 批准号:22304126
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
化瘀通络法通过SATB1/JUNB介导“氨基酸代谢网-小胶质细胞极化”调控脑缺血神经功能恢复的机制研究
- 批准号:82374172
- 批准年份:2023
- 资助金额:49 万元
- 项目类别:面上项目
磷酸酶SHP2调控成纤维细胞支链氨基酸代谢在炎症性肠病相关肠纤维化中的作用机制研究
- 批准号:82300637
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
氨基酸感应器GCN2调控Beclin-1介导的自噬缓解自身免疫性甲状腺炎的作用研究
- 批准号:82370792
- 批准年份:2023
- 资助金额:49 万元
- 项目类别:面上项目
催化不对称自由基反应合成手性α-氨基酸衍生物
- 批准号:22371216
- 批准年份:2023
- 资助金额:50 万元
- 项目类别:面上项目
相似海外基金
Proteasomal recruiters of PAX3-FOXO1 Designed via Sequence-Based Generative Models
通过基于序列的生成模型设计的 PAX3-FOXO1 蛋白酶体招募剂
- 批准号:
10826068 - 财政年份:2023
- 资助金额:
$ 2.14万 - 项目类别:
Mechanism and Evolutionary Design of DNA Polymerase Clamp Loaders.
DNA 聚合酶夹钳装载机的机制和进化设计。
- 批准号:
10587243 - 财政年份:2023
- 资助金额:
$ 2.14万 - 项目类别:
Discovering Infection-mediated Pathways of Glioma Etiology and Prognosis by Leveraging Multiplex Serology and Immunogenomics
利用多重血清学和免疫基因组学发现神经胶质瘤病因和预后的感染介导途径
- 批准号:
10522917 - 财政年份:2022
- 资助金额:
$ 2.14万 - 项目类别:
Amelogenin Nanoribbons In Enamel Development And Engineering
釉原蛋白纳米带在牙釉质开发和工程中的应用
- 批准号:
10597115 - 财政年份:2022
- 资助金额:
$ 2.14万 - 项目类别: