COMPUTER ANALYSIS OF LOW-COMPLEXITY AMINO ACID AND NUCLEOTIDE SEQUENCES

低复杂性氨基酸和核苷酸序列的计算机分析

基本信息

项目摘要

The goal of this project is to define, classify and analyze, using computational analysis, segments of protein and nucleotide sequences showing compositional bias or improbably low compositional complexity. In protein sequences, these include the abundant residue clusters of predominantly one or a few amino acid types, which commonly contain homopolymeric tracts or mosaics of these, aperiodic patterns and sections of low-period repeats. Other common examples include long non-globular domains. The abundance of biased segments in both amino acid and nucleotide sequence databases has been determined, and their properties are being related to evidence of biological functions. A. Methods: Different formal definitions of local compositional complexity were used to make unbiased identification of low-complexity segments, at different levels of stringency. Algorithms were refined to (a) select segments for further study, (b) filter out non-informative segments prior to database searches, and (c) discover and analyze regions in which compositional bias is present in periodically-spaced rather than contiguous residues. New methods for automated classification and neighboring of low- complexity sequences have been developed. B. Abundance and biological properties: Approximately 25% of the residues in protein databases are in compositionally biased segments (including some known long non- globular regions) and approximately 55% of proteins contain one or more such segments. Interspersed low-complexity sequences are particularly abundant in many eukaryotic proteins crucial in morphogenesis and embryonic development, RNA processing, transcriptional regulation, signal transduction and aspects of cellular and extracellular structural integrity. The limited structural information available for low- complexity regions of proteins indicates that they are generally non- globular and polymorphic kr mobile. Significance of project: The project is highlighting the high abundance and biological importance of low-complexity protein segments. Knowledge of their molecular structure and dynamics is beginning to emerge in a few cases, but these are a minority. This is a priority area for future research. The methods recently developed to analyze nucleotide sequences are revealing many new and intricate compositional features. These methods are valuable in eliminating many artefacts in sequence database searches and alignment analysis.
该项目的目的是使用 计算分析,蛋白质和核苷酸序列的段 显示组成偏差或不可能的低组成复杂性。 在蛋白质序列中,这些包括丰富的残留簇 主要是一种或几种氨基酸类型,通常包含 这些均聚焦区或镶嵌物,多个剖面图和部分 低周期重复。 其他常见的例子包括长期非全球 域。 氨基酸和 已经确定了核苷酸序列数据库及其性能 与生物学功能的证据有关。 A.方法: 使用了局部组成复杂性的不同形式定义 在不同 严格水平。 将算法完善为(a)选择的部分 进一步研究,(b)在数据库之前过滤掉非信息段 搜索,以及(c)发现和分析组成的区域 偏置存在于定期间隔而不是连续残基中。 自动分类和相邻的新方法 已经开发了复杂性序列。 B.丰度和生物学 特性:蛋白质数据库中约25%的残基是 在构图有偏见的段(包括一些已知的长期非 - 球状区域)和大约55%的蛋白质包含一个或多个 这样的细分市场。 散布的低复杂性序列特别是 在许多真核蛋白中丰富的形态发生至关重要 胚胎发育,RNA处理,转录调控,信号 细胞和细胞外结构的转导和方面 正直。 有限的结构信息可用于低 - 蛋白质的复杂性区域表明它们通常不是 球形和多态性KR移动。 项目的意义: 项目强调了高丰度和生物学的重要性 低复杂性蛋白段。 了解其分子结构 在少数情况下,动态开始出现了,但是这些都是 少数民族。 这是未来研究的优先领域。 方法 最近开发的用于分析核苷酸序列正在揭示许多新的 和复杂的组成特征。 这些方法在 消除序列数据库搜索和对齐方式中的许多人工制品 分析。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

暂无数据

数据更新时间:2024-06-01

J WOOTTON的其他基金

INCREASED SENSITIVITY OF COMPUTER ANALYSES OF LARGE GENOMES
提高大基因组计算机分析的灵敏度
  • 批准号:
    3845115
    3845115
  • 财政年份:
  • 资助金额:
    --
    --
  • 项目类别:
COMPUTER ANALYSIS OF LOW-COMPLEXITY AMINO ACID SEQUENCES
低复杂性氨基酸序列的计算机分析
  • 批准号:
    3845113
    3845113
  • 财政年份:
  • 资助金额:
    --
    --
  • 项目类别:
SUBTLE SEQUENCE PATTERNS IN DNA-BINDING COMPLEXES
DNA 结合复合物中的微妙序列模式
  • 批准号:
    3781283
    3781283
  • 财政年份:
  • 资助金额:
    --
    --
  • 项目类别:
COMPUTER ANALYSIS OF LOW-COMPLEXITY AMINO ACID SEQUENCES
低复杂性氨基酸序列的计算机分析
  • 批准号:
    3759306
    3759306
  • 财政年份:
  • 资助金额:
    --
    --
  • 项目类别:
MOLECULAR NOVELTY AND CONSERVATION IN BACTERIAL PROTEIN SEQUENCES
细菌蛋白质序列的分子新颖性和保守性
  • 批准号:
    3781269
    3781269
  • 财政年份:
  • 资助金额:
    --
    --
  • 项目类别:
MOLECULAR NOVELTY AND CONSERVATION IN BACTERIAL PROTEIN SEQUENCES
细菌蛋白质序列的分子新颖性和保守性
  • 批准号:
    3845114
    3845114
  • 财政年份:
  • 资助金额:
    --
    --
  • 项目类别:
DNA SEQUENCE COMPLEXITY AND MUTATIONAL DYNAMICS
DNA 序列复杂性和突变动力学
  • 批准号:
    3781282
    3781282
  • 财政年份:
  • 资助金额:
    --
    --
  • 项目类别:
SUBTLE SEQUENCE PATTERNS IN DNA-BINDING COMPLEXES
DNA 结合复合物中的微妙序列模式
  • 批准号:
    3759319
    3759319
  • 财政年份:
  • 资助金额:
    --
    --
  • 项目类别:
DNA SEQUENCE COMPLEXITY AND MUTATIONAL DYNAMICS
DNA 序列复杂性和突变动力学
  • 批准号:
    3759318
    3759318
  • 财政年份:
  • 资助金额:
    --
    --
  • 项目类别:
MOLECULAR NOVELTY AND CONSERVATION IN BACTERIAL PROTEIN SEQUENCES
细菌蛋白质序列的分子新颖性和保守性
  • 批准号:
    5203622
    5203622
  • 财政年份:
  • 资助金额:
    --
    --
  • 项目类别:

相似国自然基金

医疗长周期连续决策模型与深度强化学习算法研究
  • 批准号:
    71901050
  • 批准年份:
    2019
  • 资助金额:
    19.0 万元
  • 项目类别:
    青年科学基金项目
"ATCGZP"六核酸分子合成生命遗传系统的设计与构建
  • 批准号:
    21472182
  • 批准年份:
    2014
  • 资助金额:
    88.0 万元
  • 项目类别:
    面上项目
西藏大花红景天的居群分布、化学成份变化及地理信息系统研究
  • 批准号:
    30360011
  • 批准年份:
    2003
  • 资助金额:
    18.0 万元
  • 项目类别:
    地区科学基金项目
城市化学危险品突发灾害评估于预测信息系统
  • 批准号:
    59478044
  • 批准年份:
    1994
  • 资助金额:
    9.0 万元
  • 项目类别:
    面上项目

相似海外基金

Structural, Computational and Epidemiologic Analyses of*
* 的结构、计算和流行病学分析
  • 批准号:
    7038779
    7038779
  • 财政年份:
    2005
  • 资助金额:
    --
    --
  • 项目类别:
CODA Assembly of Mutant Genes
突变基因的 CODA 组装
  • 批准号:
    6999982
    6999982
  • 财政年份:
    2005
  • 资助金额:
    --
    --
  • 项目类别:
Hierarchical Methods for Large BioMolecular Complexes
大型生物分子复合物的分层方法
  • 批准号:
    7038206
    7038206
  • 财政年份:
    2005
  • 资助金额:
    --
    --
  • 项目类别:
Hierarchical Methods for Large BioMolecular Complexes
大型生物分子复合物的分层方法
  • 批准号:
    6916765
    6916765
  • 财政年份:
    2005
  • 资助金额:
    --
    --
  • 项目类别:
Structural, Computational and Epidemiologic Analyses of*
* 的结构、计算和流行病学分析
  • 批准号:
    7126388
    7126388
  • 财政年份:
    2005
  • 资助金额:
    --
    --
  • 项目类别: