機械学習手法による半構造データマイニングと情報抽出

使用机器学习技术进行半结构化数据挖掘和信息提取

基本信息

  • 批准号:
    16016275
  • 负责人:
  • 金额:
    $ 3.52万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
  • 财政年份:
    2004
  • 资助国家:
    日本
  • 起止时间:
    2004 至 2005
  • 项目状态:
    已结题

项目摘要

本研究課題では,機械学習手法による半構造データマイニングと情報抽出について研究を行い,本年度は次の成果を得た.Web空間の爆発的な発展に伴い,インターネット上の大規模分散コンテンツを流通・提供・活用するための手法やシステムの研究開発が求められている.機械学習技術を適用することは,人に優しい情報通信技術やフレンドリーな情報処理システムの開発に有効である.本研究課題では,HTML/XMLファイルなどのWeb文書が半構造性を持つことに注目し,機械学習技術を活用して,半構造データからのデータマイニング技術を発展させ,Webデータから有用なコンテンツを発見する手法,すなわち情報抽出技術を確立することを目的とする.均質でない半構造文書からの情報抽出に応用するため,半構造文書に共通する構造的特徴を表現する木構造パターンである,高さ制約変数付きの極大頻出タグ木パターンを発見するアルゴリズムを与えた.電気図面などTTSPグラフでモデル化できる半構造データに共通する構造パターンを表現するTTSP項グラフを多項式時間で帰納推論する学習アルゴリズムを与えた.半構造データを効率よく比較・照合するための様々な手法を統一的に記述できる一般的なフレームワークを与え,従来知られていなかった編集距離に基づく木の近似照合クラス間の関係を明らかにした.複数の半構造データを統合するため,近似照合から2つの木を結合する効率的なアルゴリズムを提案した.半構造データのフィルタリングやクラスタリングを行うために,半構造データからの局所位相情報に基づく距離を考案し,これを高速に計算する手法を開発した.
在这项研究中,我们使用机器学习方法进行了一半的数据挖掘和信息提取,我们获得了以下结果。需要提供和使用的方法和使用机器学习技术可有效地开发信息和友好的信息处理系统。从半结构数据中开发数据挖掘技术,并从Web数据中发现有用的内容,目的是建立信息提取技术。是一种木制结构模式,它表达了一半螺旋的结构特征,高限制变量。 - 可以在TTSP图中进行建模的数据,例如电气图,并具有在多学期诱导的一般框架中进行的学习算法。数据,基于未知的编辑距离阐明木材的近似类别。从一半的数据中进行级别的信息。

项目成果

期刊论文数量(28)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Tractable and Intractable Second-Order Matching Problems
易处理和难处理的二阶匹配问题
Extracting Disjunctive Closed Rules from MRSA Data
从 MRSA 数据中提取析取闭合规则
On Finding Acyclis Subhypergrahs
关于寻找 Acyclis 子超图
Extracting Multiple Layers from Data Having Graph Structures
从具有图结构的数据中提取多层
The q-Gram Distance for Ordered Unlabeled Tree
有序未标记树的 q-Gram 距离
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

宮原 哲浩其他文献

1変数項木パターンに対する多項式時間マッチングアルゴリズム
一变量词树模式的多项式时间匹配算法
  • DOI:
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    0
  • 作者:
    舛井 里帆;池森 千尋;鈴木 祐介;内田 智之;宮原 哲浩
  • 通讯作者:
    宮原 哲浩
Enumeration of Maximally Frequent Ordered Tree Patterns with Height-Constrained Variables for Trees
具有树高度约束变量的最大频繁有序树模式的枚举
  • DOI:
  • 发表时间:
    2018
  • 期刊:
  • 影响因子:
    0
  • 作者:
    鈴木 祐介;宮原 哲浩;正代 隆義;内田 智之;松本 哲志;久保山 哲二
  • 通讯作者:
    久保山 哲二
Polynomial Time Inductive Inference of Ordered Term Trees with Contractible Variables from Positive Data (計算機科学基礎理論の新展開 研究集会報告集)
正数据可收缩变量的有序项树的多项式时间归纳推理(计算机科学研究基础理论研究会议报告新进展)
  • DOI:
  • 发表时间:
    2003
  • 期刊:
  • 影响因子:
    0
  • 作者:
    鈴木 祐介;正代 隆義;松本 哲志;内田 智之;宮原 哲浩
  • 通讯作者:
    宮原 哲浩
進化的学習によるブロック内ワイルドカード付きブロック保存型外平面的グラフパターンの獲得
通过进化学习获得具有块内通配符的块守恒块外平面图模式
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    宮原 哲浩;鈴木 祐介;久保山 哲二;内田 智之;田中知希,鈴木祐介,内田智之,宮原哲浩;松本哲志,鈴木祐介,内田智之,正代隆義,宮原哲浩;門田大輝,鈴木祐介,内田智之,宮原哲浩;山本啓太,宮原哲浩,鈴木祐介,内田智之,久保山哲二
  • 通讯作者:
    山本啓太,宮原哲浩,鈴木祐介,内田智之,久保山哲二
遺伝的プログラミングによるワイルドカード付きブロック保存型外平面的グラフパターンの獲得
通过遗传编程获得带通配符的块守恒平面外图模式
  • DOI:
  • 发表时间:
    2019
  • 期刊:
  • 影响因子:
    0
  • 作者:
    徳原 史也;沖永 志帆;宮原 哲浩;鈴木 祐介;久保山 哲二;内田 智之;草場彰;宮原哲浩
  • 通讯作者:
    宮原哲浩

宮原 哲浩的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('宮原 哲浩', 18)}}的其他基金

グラフ構造パターンにより可視化された説明可能なグラフ構造化知識の獲得システム
通过图结构模式可视化的可解释的图结构知识获取系统
  • 批准号:
    22K12172
  • 财政年份:
    2022
  • 资助金额:
    $ 3.52万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
科学的法則を発見する機械学習アルゴリズムの研究
研究机器学习算法发现科学规律
  • 批准号:
    08780369
  • 财政年份:
    1996
  • 资助金额:
    $ 3.52万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
科学的法則を発見する機械学習アルゴリズムの研究
研究机器学习算法发现科学规律
  • 批准号:
    07780335
  • 财政年份:
    1995
  • 资助金额:
    $ 3.52万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
状況を領域知識として利用する学習アルゴリズムの研究
以情境为领域知识的学习算法研究
  • 批准号:
    06780328
  • 财政年份:
    1994
  • 资助金额:
    $ 3.52万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
状況を領域知識として利用する学習アルゴリズムの研究
以情境为领域知识的学习算法研究
  • 批准号:
    05780296
  • 财政年份:
    1993
  • 资助金额:
    $ 3.52万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
状況を領域知識として利用する学習アルゴリズムの研究
以情境为领域知识的学习算法研究
  • 批准号:
    04780038
  • 财政年份:
    1992
  • 资助金额:
    $ 3.52万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
テキスト構造の帰納推論とその応用
文本结构归纳推理及其应用
  • 批准号:
    02780034
  • 财政年份:
    1990
  • 资助金额:
    $ 3.52万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)

相似海外基金

Development of Next-generation Semi-Structured Data Mining Technology Towards The Real-World Knowledge Creation Infrastructure
面向现实世界知识创造基础设施的下一代半结构化数据挖掘技术的开发
  • 批准号:
    20H00595
  • 财政年份:
    2020
  • 资助金额:
    $ 3.52万
  • 项目类别:
    Grant-in-Aid for Scientific Research (A)
Construction of Machine Learning Computing Base and Creation of Remarkable Contributions in Multiple Research Fields
机器学习计算基础建设并在多个研究领域做出显着贡献
  • 批准号:
    17H00762
  • 财政年份:
    2017
  • 资助金额:
    $ 3.52万
  • 项目类别:
    Grant-in-Aid for Scientific Research (A)
Next-generation semi-structured data mining technologies for real-world knowledge infrastructures
用于现实世界知识基础设施的下一代半结构化数据挖掘技术
  • 批准号:
    16H01743
  • 财政年份:
    2016
  • 资助金额:
    $ 3.52万
  • 项目类别:
    Grant-in-Aid for Scientific Research (A)
超高速列挙アルゴリズムを用いた構造データマイニングアルゴリズムの開発
使用超快速枚举算法开发结构数据挖掘算法
  • 批准号:
    13J01149
  • 财政年份:
    2013
  • 资助金额:
    $ 3.52万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
Development of Next-Generation Semi-structured Data Mining for Large-Scale Knowledge Base Formation
用于大规模知识库形成的下一代半结构化数据挖掘的开发
  • 批准号:
    24240021
  • 财政年份:
    2012
  • 资助金额:
    $ 3.52万
  • 项目类别:
    Grant-in-Aid for Scientific Research (A)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了