Discovery Knowledge and Data Mining from Structured Data

从结构化数据中发现知识和数据挖掘

基本信息

  • 批准号:
    13680459
  • 负责人:
  • 金额:
    $ 2.3万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
  • 财政年份:
    2001
  • 资助国家:
    日本
  • 起止时间:
    2001 至 2003
  • 项目状态:
    已结题

项目摘要

The purpose of this research project is to give theoretical foundations of data mining systems from graph-structured data or tree-structured data. Recently, Web documents such as HTML files and XIML files have increased rapidly. Such Web documents have no rigid structure and are called semistructured data. In general, such semistructured Web documents are represented by rooted trees. We have proposed methods for discovering frequent tree structured patterns in semistructured Web documents by using a tag tree pattern as a hypothesis. A tag tree pattern is an edge labeled tree which has ordered or unordered children and structured variables. An edge label is a tag or a keyword in such Web documents, and a variable can be substituted by an arbitrary tree. So a tag tree pattern is suited for representing tree structured patterns in such Web documents. Information Extraction from semistructured data becomes more and more important. In order to extract meaningful or interesting contents from semistructured data, we need to extract common structured patterns from semistructured data. We have presented a method for extracting characteristic tag tree patterns from irregular semistructured data by using an algorithm for finding a minimally generalized tag tree pattern explaining given data. Also we have given various learning algorithms of term trees, which are tree structured patterns with structured variables, from tree structured data, since such learning algorithms give theoretical foundations of data mining from semistructured data.
该研究项目的目的是从图形结构化数据或树结构数据中赋予数据挖掘系统的理论基础。最近,诸如HTML文件和XIML文件之类的Web文档迅速增加。此类Web文档没有刚性结构,称为半结构化数据。通常,这种半结构化的Web文档由生根树表示。我们提出了通过使用标签树模式作为假设来发现半结构化Web文档中频繁的树结构化模式的方法。标签树模式是一个带有边缘的树,该树已订购或无序的儿童和结构化变量。边缘标签是此类Web文档中的标签或关键字,可以用任意树代替变量。因此,标签树模式适用于在此类Web文档中表示树结构化模式。从半结构数据中提取信息变得越来越重要。为了从半结构化数据中提取有意义或有趣的内容,我们需要从半结构化数据中提取共同的结构化模式。我们提出了一种通过使用算法来查找最小概括的标签树模式来解释给定数据的算法,从而从不规则的半结构数据中提取特征标记树模式。另外,我们从树结构化数据中给出了术语树的各种学习算法,这些术语树是带有结构化变量的树结构化模式,因为这种学习算法从半结构化数据中赋予了数据挖掘的理论基础。

项目成果

期刊论文数量(51)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
T.Miyahara, T.Shoudai, T.Uchida, K.Takahashi, H.Ueda: "Discovery of frequent tree structured patterns in semistructured web documents"Proceedings of the 5tg Pacific-Asia Conference on Knowledge Discovery and Data Mining (PAKDD-2001) (Springer-Verlag) Lect
T.Miyahara、T.Shoudai、T.Uchida、K.Takahashi、H.Ueda:“半结构化网络文档中频繁树结构模式的发现”第五届太平洋-亚洲知识发现和数据挖掘会议论文集(PAKDD-2001)
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
Kazuyoshi Furukawa et al.: "Extracting characteristic structures among words in semistructured documents"Proc.PAKDD-2002, Lecture Notes in Artificial Intelligence, Springer-Verlag. 2336. 356-367 (2002)
Kazuyoshi Furukawa 等人:“提取半结构化文档中单词的特征结构”Proc.PAKDD-2002,人工智能讲座笔记,Springer-Verlag。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
Yusuke Suzuki et al.: "Efficient Learning of Unlabeled Term Trees with Contractible Variables from Positive Data"Proc.ILP03, Lecture Notes in Artificial Intelligence, Springer-Verlag. 2835. 347-364 (2003)
Yusuke Suzuki 等人:“利用来自正数据的可收缩变量有效学习未标记术语树”Proc.ILP03,人工智能讲义,Springer-Verlag。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
Yusuke Suzuki: "Efficient Learning of Ordered and Unordered Tree Patterns with Contractible Variables."Proc.ALT03, Lecture Notes in Artificial Intelligence, Springer-Verlag. 2842. 114-128 (2003)
Yusuke Suzuki:“利用可收缩变量有效学习有序和无序树模式。”Proc.ALT03,人工智能讲义,Springer-Verlag。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
Satoshi Matsumoto: "Learning of Finite Unions of Tree Patterns with Repeated Internal Structured Variables from Queries"Proc.ALT03, Lecture Notes in Artificial Intelligence, Springer-Verlag. 2842. 144-158 (2003)
Satoshi Matsumoto:“从查询中学习具有重复内部结构化变量的树模式的有限联合”Proc.ALT03,人工智能讲义,Springer-Verlag。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

MIYAHARA Tetsuhiro其他文献

Exact Learning of Primitive Formal Systems Defining Labeled Ordered Tree Languages via Queries
通过查询定义带标签有序树语言的原始形式系统的精确学习
  • DOI:
    10.1587/transinf.2018fcp0011
  • 发表时间:
    2019
  • 期刊:
  • 影响因子:
    0.7
  • 作者:
    UCHIDA Tomoyuki;MATSUMOTO Satoshi;SHOUDAI Takayoshi;SUZUKI Yusuke;MIYAHARA Tetsuhiro
  • 通讯作者:
    MIYAHARA Tetsuhiro
An Efficient Pattern Matching Algorithm for Unordered Term Tree Patterns of Bounded Dimension
有界维无序词树模式的高效模式匹配算法

MIYAHARA Tetsuhiro的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('MIYAHARA Tetsuhiro', 18)}}的其他基金

Discovery of Deep Knowledge from Graph-Structured Data using Expressive Graph-Structured Patterns
使用富有表现力的图结构模式从图结构数据中发现深层知识
  • 批准号:
    15K00312
  • 财政年份:
    2015
  • 资助金额:
    $ 2.3万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Effective Discovery of Hidden Structured Knowledge using Data Mining and Machine Learning
使用数据挖掘和机器学习有效发现隐藏的结构化知识
  • 批准号:
    22500135
  • 财政年份:
    2010
  • 资助金额:
    $ 2.3万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Information Fusion from Semi-structured Data using Data Mining and Machine Learning
使用数据挖掘和机器学习从半结构化数据中进行信息融合
  • 批准号:
    19500129
  • 财政年份:
    2007
  • 资助金额:
    $ 2.3万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Data Mining from Hybrid Data with Numerical Attributes and Graph Structures
具有数值属性和图结构的混合数据的数据挖掘
  • 批准号:
    16500084
  • 财政年份:
    2004
  • 资助金额:
    $ 2.3万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)

相似国自然基金

基于稳定态势推演的新型电力系统运行方式知识发现与应用研究
  • 批准号:
    52377085
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目
融合知识发现的低碳冷轧生产计划与调度集成优化方法研究
  • 批准号:
    72362026
  • 批准年份:
    2023
  • 资助金额:
    27 万元
  • 项目类别:
    地区科学基金项目
基于知识共通性特征的跨学科知识发现
  • 批准号:
    72374233
  • 批准年份:
    2023
  • 资助金额:
    40 万元
  • 项目类别:
    面上项目
面向动态不完备数据中知识发现的离散张量隐特征技术研究
  • 批准号:
    62302030
  • 批准年份:
    2023
  • 资助金额:
    30.00 万元
  • 项目类别:
    青年科学基金项目
面向中国古诗文的长时间跨度知识图谱构建与深层知识发现研究
  • 批准号:
    62372060
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目

相似海外基金

Towards knowledge discovery from imperfect and evolving data
从不完美和不断发展的数据中发现知识
  • 批准号:
    DP240103070
  • 财政年份:
    2024
  • 资助金额:
    $ 2.3万
  • 项目类别:
    Discovery Projects
CAREER: Statistically-Sound Knowledge Discovery from Data
职业:从数据中发现统计上合理的知识
  • 批准号:
    2238693
  • 财政年份:
    2023
  • 资助金额:
    $ 2.3万
  • 项目类别:
    Continuing Grant
Travel: Student Support for the 2023 ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD 2023)
旅行:2023 年 ACM SIGKDD 知识发现和数据挖掘会议 (KDD 2023) 的学生支持
  • 批准号:
    2323492
  • 财政年份:
    2023
  • 资助金额:
    $ 2.3万
  • 项目类别:
    Standard Grant
Centrally-linked longitudinal peripheral biomarkers of AD in multi-ethnic populations
多种族人群中 AD 的中心连锁纵向外周生物标志物
  • 批准号:
    10555723
  • 财政年份:
    2023
  • 资助金额:
    $ 2.3万
  • 项目类别:
Disrupting Dogma: Investigating LPS Biosynthesis Inhibition as an Alternative Mechanism of Action of Aminoglycoside Antibiotics
颠覆教条:研究 LPS 生物合成抑制作为氨基糖苷类抗生素的替代作用机制
  • 批准号:
    10653587
  • 财政年份:
    2023
  • 资助金额:
    $ 2.3万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了