Pattern Discovery for Combinatorial Databases

组合数据库的模式发现

基本信息

项目摘要

This work involves a form of datamining, including the determination of motifs that may exist in a database of objects and the fast determination of distances between objects which may be used for clustering and data visualization. This becomes more significant when one has minimal information concerning the motifs. Ultimately, one would like to determine whether or not the set of motifs and the clusters discovered can act as good classifiers. The data objects dealt with may consist of sequences, trees, graphs or records. Examples of the use of these methods include: 1) the determination of 3D motifs in bio-molecules. The motifs that the algorithms find are rigid substructures which may occur in a graph after allowing for an arbitrary number of rotations and translations as well as a small number of node insert/delete operations in the motifs or graphs. By combining a geometric hashing" technique and "block detection" algorithms for undirected graphs we are able to find motifs approximately in a set of graphs; 2) the determination of the largest approximately common substructures of two trees based on an edit distance metric. Using a method known as "selective memorization", the algorithm was used to discover motifs in multiple RNA secondary structures which can be represented as trees; 3) sequence data, as mentioned above, can also be used for pattern discovery. Protein sequences were classified with a 98% precision rate; 4) more recently, a new index structure has been developed that takes a set of objects and a distance metric and then maps those objects into a k-dimensional space in such a way that the distances are approximately preserved. This index structure is a useful tool for clustering and visualization in data-intensive applications. Thus clustering of large databases can be made practical as for example in the clustering RNA conformations.
这项工作涉及一种数据设计形式,包括确定对象数据库中可能存在的基序以及可以用于聚类和数据可视化的对象之间的距离的快速确定。当人们对主题的信息最少时,这将变得更加重要。最终,人们想确定图案集和发现的集群是否可以充当良好的分类器。处理的数据对象可能包括序列,树,图形或记录。 使用这些方法的示例包括:1)在生物分子中测定3D基序。算法发现的主题是刚性子结构,在允许任意数量的旋转和翻译以及少数节点插入/DELETE操作中,它们可能会在图形或图形中发生。通过将几何散列“技术和“块检测”算法相结合,我们能够在一组图中查找大约在图中找到图案; 2)确定基于编辑距离的两棵树的最大共同子结构的确定,基于一个编辑距离的公制。使用一个被称为“选择性记忆”的方法,该方法是“选择性记忆”,以“ algoriths”的构建方式,该序列是构造的三个序列。如上所述,还可以将蛋白质序列分类为98%的精度;例如,在聚类RNA构象中进行实用。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

暂无数据

数据更新时间:2024-06-01

BRUCE A. SHAPIRO的其他基金

Computer Analysis of Nucleic Acid Structure
核酸结构的计算机分析
  • 批准号:
    7337952
    7337952
  • 财政年份:
  • 资助金额:
    --
    --
  • 项目类别:
Computer Analysis of Nucleic Acid Structure
核酸结构的计算机分析
  • 批准号:
    7592576
    7592576
  • 财政年份:
  • 资助金额:
    --
    --
  • 项目类别:
COMPUTER ANALYSIS OF NUCLEIC ACID STRUCTURE
核酸结构的计算机分析
  • 批准号:
    6289202
    6289202
  • 财政年份:
  • 资助金额:
    --
    --
  • 项目类别:
Pattern Discovery for Combinatorial Databases
组合数据库的模式发现
  • 批准号:
    6944661
    6944661
  • 财政年份:
  • 资助金额:
    --
    --
  • 项目类别:
Computer Analysis of Nucleic Acid Structure
核酸结构的计算机分析
  • 批准号:
    7048219
    7048219
  • 财政年份:
  • 资助金额:
    --
    --
  • 项目类别:
Computational Approaches for RNA StructureFunction Determination
RNA 结构功能测定的计算方法
  • 批准号:
    7732920
    7732920
  • 财政年份:
  • 资助金额:
    --
    --
  • 项目类别:
Computer Analysis of Nucleic Acid Structure
核酸结构的计算机分析
  • 批准号:
    6433094
    6433094
  • 财政年份:
  • 资助金额:
    --
    --
  • 项目类别:
Computer Analysis of Nucleic Acid Structure
核酸结构的计算机分析
  • 批准号:
    7291822
    7291822
  • 财政年份:
  • 资助金额:
    --
    --
  • 项目类别:
Computer Analysis of Nucleic Acid Structure
核酸结构的计算机分析
  • 批准号:
    6559004
    6559004
  • 财政年份:
  • 资助金额:
    --
    --
  • 项目类别:
Computer Analysis of Nucleic Acid Structure
核酸结构的计算机分析
  • 批准号:
    6945082
    6945082
  • 财政年份:
  • 资助金额:
    --
    --
  • 项目类别:

相似国自然基金

面向高维不平衡数据的分类集成算法研究
  • 批准号:
    62306119
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
超平面配置中的分类问题
  • 批准号:
    12301424
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
贝叶斯视角下视觉分类器的鲁棒泛化性研究
  • 批准号:
    62302139
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
鲁棒张量模型驱动的高光谱深度解混及其典型湿地植被精细分类应用研究
  • 批准号:
    62361042
  • 批准年份:
    2023
  • 资助金额:
    32 万元
  • 项目类别:
    地区科学基金项目
分布匹配驱动的不平衡分类样本扩充方法研究
  • 批准号:
    62306125
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

Dynamic single-cell analysis instrument to evaluate immune cell function
动态单细胞分析仪评估免疫细胞功能
  • 批准号:
    10699036
    10699036
  • 财政年份:
    2023
  • 资助金额:
    --
    --
  • 项目类别:
Predicting Clinical Phenotypes in Crohn's Disease Using Machine Learning and Single-Cell 'omics
使用机器学习和单细胞组学预测克罗恩病的临床表型
  • 批准号:
    10586795
    10586795
  • 财政年份:
    2023
  • 资助金额:
    --
    --
  • 项目类别:
Data Management & Bioformatics Core
数据管理
  • 批准号:
    10551706
    10551706
  • 财政年份:
    2023
  • 资助金额:
    --
    --
  • 项目类别:
Learn, transfer, generate: Developing novel deep learning models for enhancing robustness and accuracy of small-scale single-cell RNA sequencing studies
学习、转移、生成:开发新颖的深度学习模型,以增强小规模单细胞 RNA 测序研究的稳健性和准确性
  • 批准号:
    10535708
    10535708
  • 财政年份:
    2023
  • 资助金额:
    --
    --
  • 项目类别:
Characterizing functional states of macrophages via their stimulus-responses
通过刺激反应表征巨噬细胞的功能状态
  • 批准号:
    10737449
    10737449
  • 财政年份:
    2023
  • 资助金额:
    --
    --
  • 项目类别: