Statistics of Sequence Comparison

序列比较统计

基本信息

  • 批准号:
    10007519
  • 负责人:
  • 金额:
    $ 23.53万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
  • 财政年份:
  • 资助国家:
    美国
  • 起止时间:
  • 项目状态:
    未结题

项目摘要

The current direction of this project, in collaboration with Dr. Andrew Neuwald of the Institute for Genome Sciences and Department of Biochemistry & Molecular Biology at the University of Maryland School of Medicine, continued throughout this year. Previous focuses had been the development of an improved method for multiple alignment that could identify the common elements shared by large and diverse protein superfamilies, and the extension of this method to a hierarchical multiple alignment model. Such a model is based on the fact that large protein superfamilies frequently have diversified to fulfill distinct functional roles within different subfamilies. Each subfamily has distinct structural constraints, which yield distinct amino acid frequency vectors at particular positions characteristic of that subfamily. Although, within a subfamily, the amino acids at different positions may be independent, the changes in frequency vectors across multiple positions characteristic of each subfamily yields the appearance of correlation between positions when a simple, non-hierarchical model of a superfamily is constructed. Earlier approaches have modeled these apparent correlations directly, using pairwise coupling terms, but we model them by constructing an explicit hierarchical model, with individual sequences assigned to distinct nodes within the hierarchy. We applied the Minimum Description Length principle to insure that the hierarchical models we construct do not overfit the data, but have statistical support. This year the central focus this project was the statistical assessment of the three-dimensional clustering of "distinguished positions", identified as characteristic of various nodes in a hierarchy. Our approach, called Initial Cluster Analysis (ICA), seeks to determine whether a set of distinguished elements within a linear array is clustered significantly near the start of the array and, if so, what is the most significant initial cluster of these elements. Abstractly, given a linear array of length L containing D '1's (the distinguished elements) and L-D '0's, it considers a generative model in which in which the '1's occur with particular and differing probabilities before and after a cut point X in the array. For any particular X it is relatively easy to calculate a likelihood Like(X) of the array of data, and one may optimize Like(X) by simply evaluating it for all possible X. However, the values of Like(X) for close values of X are highly correlated, dependent upon a calculable "density of independent trials" Rho(X). Because Rho(X) is not constant but rather grows approximately as the reciprocal of X's distance from 0 or L, simply optimizing Like(X) inherently favors, a priori, small or large values of X. Therefore, if one's application suggests no such bias, choosing to optimize Like(X)/Rho(X) rather than Like(X) for a given array of '0's and '1's may be a better strategy; we refer to this approach as using "flattened priors". ICA estimates the effective total number of independent trials implicit in either optimization, which it uses in calculating a p-value for the optimal X. This provides a mathematically principled way to define an optimal initial cluster of distinguished elements, balancing the claims of very short and dense clusters with those of longer but sparser clusters. We published ICA in the Journal of Computational Biology. To analyze real proteins using ICA, we ordered the residues within a protein by their physical distance from a point of reference, and used our previously-developed hierarchical analysis to define a set of distinguished residues, characteristic of a protein family or subfamily. ICA then allows us to find sets of distinguished residues that are significantly clustered in three dimensions. Applying this approach to N-acetyltransferases, P-loop GTPases, RNA helicases, synaptojanin-superfamily phosphatases and nucleases, and thymine/uracil DNA glycosylases yielded results congruent with biochemical understanding of these proteins, and also revealed striking sequence-structural features overlooked by other methods. This work was published in eLife. We initiated work on a new project to summarize and analyze the constraints on protein sequence and structure that may be derived from large multiple sequence alignments. For a particular protein, these constraints include those on amino acid usage in particular positions due to the protein's subfamily function, as well as those constraints characteristic of the family and superfamily of which the protein is a member. Additional constraints, which may be derived from DCA, are due to internal or heterodimeric pairwise interactions between different protein positions. The integrated analysis of these various constraints can suggest new lines for experimentation.
该项目的当前方向,与博士合作。 基因组科学研究所及系的 Andrew Neuwald 马里兰大学生物化学与分子生物学系 医学院,今年继续。 以前的 重点是开发一种改进的方法,用于多种 对齐可以识别大型共享的共同元素 和不同的蛋白质超家族,以及该方法的扩展 到分层多重比对模型。 这样的模型是基于 事实上,大型蛋白质超家族经常具有 多元化,以在不同的领域履行不同的职能角色 亚科。 每个亚科都有独特的结构限制, 其在特定的位置产生不同的氨基酸频率向量 该亚科的位置特征。 虽然,在一个 亚家族,不同位置的氨基酸可以是独立的, 多个位置的频率向量的变化 每个亚科的特征产生的外观 当一个简单的、非层次结构的情况下,位置之间的相关性 构建了一个超家族模型。 早期的方法有 使用成对的方法直接对这些明显的相关性进行建模 耦合项,但我们通过构造一个显式的模型来建模它们 分层模型,将各个序列分配给不同的 层次结构中的节点。 我们应用了最低描述 长度原则确保我们的分层模型 构造不会过度拟合数据,但有统计支持。 今年该项目的重点是统计 “杰出人物”三维聚类评价 位置”,被识别为各个节点的特征 一个层次结构。 我们的方法称为初始聚类分析 (ICA), 试图确定一组不同的元素是否在 线性阵列明显聚集在靠近开始处 数组,如果是的话,最重要的初始簇是什么 这些元素。 抽象地,给定一个长度为 L 的线性数组 包含 D '1'(区分元素)和 L-D '0', 它考虑了一个生成模型,其中出现“1” 在某个事件之前和之后具有特定且不同的概率 数组中的切点 X。 对于任何特定的 X 来说,它是相对的 很容易计算数据数组的可能性 Like(X), 并且可以通过简单地评估所有的 Like(X) 来优化它 可能的 X。但是,Like(X) 的值接近值 X 的值高度相关,取决于可计算的“密度” 独立试验”Rho(X)。因为 Rho(X) 不是常数 而是大约随着 X 距离的倒数增长 从 0 或 L 开始,简单地优化 Like(X) 本质上是有利的,先验的, X 的小值或大值。因此,如果一个应用程序 建议没有这样的偏差,选择优化 Like(X)/Rho(X) 而不是 对于给定的“0”和“1”数组,比 Like(X) 可能更好 战略;我们将这种方法称为使用“扁平化先验”。 ICA 估算独立试验的有效总数 隐含在任一优化中,它用于计算 最佳 X 的 p 值。这提供了数学上的 定义最优初始簇的原则方法 杰出的元素,平衡非常短的主张 以及密集的簇与较长但稀疏的簇。 我们在《计算生物学杂志》上发表了 ICA。 为了使用 ICA 分析真实蛋白质,我们对其中的残基进行了排序 蛋白质与参考点的物理距离, 并使用我们之前开发的层次分析来定义 一组独特的残基,是蛋白质家族的特征 或亚科。 然后 ICA 允许我们找到一组可区分的 在三个维度上显着聚集的残基。 将此方法应用于 N-乙酰转移酶、P-环 GTP 酶、 RNA 解旋酶、突触贾蛋白超家族磷酸酶和核酸酶, 和胸腺嘧啶/尿嘧啶 DNA 糖基化酶产生的结果一致 对这些蛋白质的生化了解,还揭示了 其他方法忽视的显着序列结构特征。 这项工作发表在 eLife 上。 我们启动了一个新项目的工作来总结和分析 对可能衍生的蛋白质序列和结构的限制 来自大型多序列比对。 对于特定的蛋白质, 这些限制尤其包括氨基酸使用的限制 由于蛋白质的亚家族功能而产生的位置,以及 家庭和大家庭特有的那些限制 蛋白质是其中的一员。 额外的限制, 可能源自 DCA,是由于内部或异二聚体 不同蛋白质位置之间的成对相互作用。 这 对这些不同约束的综合分析可以提出新的建议 实验线。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

STEPHEN F ALTSCHUL其他文献

STEPHEN F ALTSCHUL的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('STEPHEN F ALTSCHUL', 18)}}的其他基金

STATISTICS OF SEQUENCE COMPARISON
序列比较统计
  • 批准号:
    6290478
  • 财政年份:
  • 资助金额:
    $ 23.53万
  • 项目类别:
Improvements And Extensions To The Blast Algorithms
Blast 算法的改进和扩展
  • 批准号:
    6546809
  • 财政年份:
  • 资助金额:
    $ 23.53万
  • 项目类别:
Improvements And Extensions To The Blast Algorithms
Blast 算法的改进和扩展
  • 批准号:
    6843572
  • 财政年份:
  • 资助金额:
    $ 23.53万
  • 项目类别:
Statistics of Sequence Comparison
序列比较统计
  • 批准号:
    9160904
  • 财政年份:
  • 资助金额:
    $ 23.53万
  • 项目类别:
Statistics of Sequence Comparison
序列比较统计
  • 批准号:
    8558094
  • 财政年份:
  • 资助金额:
    $ 23.53万
  • 项目类别:
Statistics of Sequence Comparison
序列比较统计
  • 批准号:
    8149590
  • 财政年份:
  • 资助金额:
    $ 23.53万
  • 项目类别:
IMPROVEMENTS AND EXTENSIONS TO THE BLAST ALGORITHMS
Blast 算法的改进和扩展
  • 批准号:
    6432754
  • 财政年份:
  • 资助金额:
    $ 23.53万
  • 项目类别:
Statistics Of Sequence Comparison
序列比较统计
  • 批准号:
    6681316
  • 财政年份:
  • 资助金额:
    $ 23.53万
  • 项目类别:
Statistics of Sequence Comparison
序列比较统计
  • 批准号:
    9555728
  • 财政年份:
  • 资助金额:
    $ 23.53万
  • 项目类别:
Statistics Of Sequence Comparison
序列比较统计
  • 批准号:
    7148022
  • 财政年份:
  • 资助金额:
    $ 23.53万
  • 项目类别:

相似国自然基金

模板化共晶聚合合成高分子量序列聚氨基酸
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
基于祖先序列重构的D-氨基酸解氨酶的新酶设计及分子进化
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    54 万元
  • 项目类别:
    面上项目
C-末端40个氨基酸插入序列促进细菌脂肪酸代谢调控因子FadR转录效率的机制研究
  • 批准号:
    82003257
  • 批准年份:
    2020
  • 资助金额:
    24 万元
  • 项目类别:
    青年科学基金项目
谷氧还蛋白PsGrx在南极海冰细菌极端生境适应中的功能研究
  • 批准号:
    41876149
  • 批准年份:
    2018
  • 资助金额:
    62.0 万元
  • 项目类别:
    面上项目
氨基酸转运蛋白LAT1调控mTOR信号通路对鼻咽癌放射敏感性的影响及其机制研究
  • 批准号:
    81702687
  • 批准年份:
    2017
  • 资助金额:
    20.0 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

Enzymology of Bacteroides short and branched chain fatty acid metabolism
拟杆菌短链和支链脂肪酸代谢的酶学
  • 批准号:
    10651505
  • 财政年份:
    2023
  • 资助金额:
    $ 23.53万
  • 项目类别:
BRD2-MULTIPROTEIN COMPLEXES IN MAMMALIAN CELL CYCLE TRANSCRIPTIONAL CONTROL
哺乳动物细胞周期转录控制中的 BRD2-多蛋白复合物
  • 批准号:
    8170865
  • 财政年份:
    2010
  • 资助金额:
    $ 23.53万
  • 项目类别:
BRD2-MULTIPROTEIN COMPLEXES IN MAMMALIAN CELL CYCLE TRANSCRIPTIONAL CONTROL
哺乳动物细胞周期转录控制中的 BRD2-多蛋白复合物
  • 批准号:
    7955890
  • 财政年份:
    2009
  • 资助金额:
    $ 23.53万
  • 项目类别:
Regulation and Gene Expression of Yeast Cytochrome c
酵母细胞色素c的调控及基因表达
  • 批准号:
    7926360
  • 财政年份:
    2009
  • 资助金额:
    $ 23.53万
  • 项目类别:
BRD2-MULTIPROTEIN COMPLEXES IN MAMMALIAN CELL CYCLE TRANSCRIPTIONAL CONTROL
哺乳动物细胞周期转录控制中的 BRD2-多蛋白复合物
  • 批准号:
    7722965
  • 财政年份:
    2008
  • 资助金额:
    $ 23.53万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了