機械学習手法による半構造データマイニングと情報抽出

使用机器学习技术进行半结构化数据挖掘和信息提取

基本信息

  • 批准号:
    16016275
  • 负责人:
  • 金额:
    $ 3.52万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
  • 财政年份:
    2004
  • 资助国家:
    日本
  • 起止时间:
    2004 至 2005
  • 项目状态:
    已结题

项目摘要

本研究課題では,機械学習手法による半構造データマイニングと情報抽出について研究を行い,本年度は次の成果を得た.Web空間の爆発的な発展に伴い,インターネット上の大規模分散コンテンツを流通・提供・活用するための手法やシステムの研究開発が求められている.機械学習技術を適用することは,人に優しい情報通信技術やフレンドリーな情報処理システムの開発に有効である.本研究課題では,HTML/XMLファイルなどのWeb文書が半構造性を持つことに注目し,機械学習技術を活用して,半構造データからのデータマイニング技術を発展させ,Webデータから有用なコンテンツを発見する手法,すなわち情報抽出技術を確立することを目的とする.均質でない半構造文書からの情報抽出に応用するため,半構造文書に共通する構造的特徴を表現する木構造パターンである,高さ制約変数付きの極大頻出タグ木パターンを発見するアルゴリズムを与えた.電気図面などTTSPグラフでモデル化できる半構造データに共通する構造パターンを表現するTTSP項グラフを多項式時間で帰納推論する学習アルゴリズムを与えた.半構造データを効率よく比較・照合するための様々な手法を統一的に記述できる一般的なフレームワークを与え,従来知られていなかった編集距離に基づく木の近似照合クラス間の関係を明らかにした.複数の半構造データを統合するため,近似照合から2つの木を結合する効率的なアルゴリズムを提案した.半構造データのフィルタリングやクラスタリングを行うために,半構造データからの局所位相情報に基づく距離を考案し,これを高速に計算する手法を開発した.
在本研究主题中,我们使用机器学习方法对半结构化数据挖掘和信息提取进行了研究,并在今年取得了以下结果。随着网络空间的爆炸性开发,需要在Internet上进行分发,提供和利用大规模分布式内容的方法和系统的研究和开发。机器学习技术的应用有效地开发了对人类友好的信息通信技术和友好的信息处理系统。在本研究主题中,我们专注于Web文档(例如HTML/XML文件)的半结构性质,并旨在从半结构数据中开发数据挖掘技术,并建立一种从Web数据(即信息提取技术)中发现有用内容的方法。为了将信息提取从非同质性半结构化文档中提取,我们具有半结构化文档共有的结构。我们给出了一种算法,以发现具有高度约束变量的最常见经常标记的树模式,它们是表达特征的树结构模式。我们给出了一种学习算法,以诱导推断TTSP项图,该图表示在多项式时间内与半结构数据(例如电图)共有的结构模式。我们给出了一个通用框架,可以描述各种方法,以有效地比较和匹配半结构化数据,我们已经根据以前未知的编辑距离揭示了树木之间近似匹配类之间的关系。为了集成多个半结构化数据,我们提出了一种有效的算法,以结合近似匹配的两棵树。为了过滤和聚集半结构化数据,我们根据来自半结构数据的本地相信息设计了一个距离,并开发了一种以高速计算的方法。

项目成果

期刊论文数量(28)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Tractable and Intractable Second-Order Matching Problems
易处理和难处理的二阶匹配问题
Extracting Disjunctive Closed Rules from MRSA Data
从 MRSA 数据中提取析取闭合规则
On Finding Acyclis Subhypergrahs
关于寻找 Acyclis 子超图
Extracting Multiple Layers from Data Having Graph Structures
从具有图结构的数据中提取多层
On Generalization and Subsumption for Ordered Clauses
论有序子句的概括和归并
共 16 条
  • 1
  • 2
  • 3
  • 4
前往

宮原 哲浩其他文献

1変数項木パターンに対する多項式時間マッチングアルゴリズム
一变量词树模式的多项式时间匹配算法
  • DOI:
  • 发表时间:
    2020
    2020
  • 期刊:
  • 影响因子:
    0
  • 作者:
    舛井 里帆;池森 千尋;鈴木 祐介;内田 智之;宮原 哲浩
    舛井 里帆;池森 千尋;鈴木 祐介;内田 智之;宮原 哲浩
  • 通讯作者:
    宮原 哲浩
    宮原 哲浩
Enumeration of Maximally Frequent Ordered Tree Patterns with Height-Constrained Variables for Trees
具有树高度约束变量的最大频繁有序树模式的枚举
  • DOI:
  • 发表时间:
    2018
    2018
  • 期刊:
  • 影响因子:
    0
  • 作者:
    鈴木 祐介;宮原 哲浩;正代 隆義;内田 智之;松本 哲志;久保山 哲二
    鈴木 祐介;宮原 哲浩;正代 隆義;内田 智之;松本 哲志;久保山 哲二
  • 通讯作者:
    久保山 哲二
    久保山 哲二
進化的学習によるブロック内ワイルドカード付きブロック保存型外平面的グラフパターンの獲得
通过进化学习获得具有块内通配符的块守恒块外平面图模式
  • DOI:
  • 发表时间:
    2021
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    宮原 哲浩;鈴木 祐介;久保山 哲二;内田 智之;田中知希,鈴木祐介,内田智之,宮原哲浩;松本哲志,鈴木祐介,内田智之,正代隆義,宮原哲浩;門田大輝,鈴木祐介,内田智之,宮原哲浩;山本啓太,宮原哲浩,鈴木祐介,内田智之,久保山哲二
    宮原 哲浩;鈴木 祐介;久保山 哲二;内田 智之;田中知希,鈴木祐介,内田智之,宮原哲浩;松本哲志,鈴木祐介,内田智之,正代隆義,宮原哲浩;門田大輝,鈴木祐介,内田智之,宮原哲浩;山本啓太,宮原哲浩,鈴木祐介,内田智之,久保山哲二
  • 通讯作者:
    山本啓太,宮原哲浩,鈴木祐介,内田智之,久保山哲二
    山本啓太,宮原哲浩,鈴木祐介,内田智之,久保山哲二
Polynomial Time Inductive Inference of Ordered Term Trees with Contractible Variables from Positive Data (計算機科学基礎理論の新展開 研究集会報告集)
正数据可收缩变量的有序项树的多项式时间归纳推理(计算机科学研究基础理论研究会议报告新进展)
  • DOI:
  • 发表时间:
    2003
    2003
  • 期刊:
  • 影响因子:
    0
  • 作者:
    鈴木 祐介;正代 隆義;松本 哲志;内田 智之;宮原 哲浩
    鈴木 祐介;正代 隆義;松本 哲志;内田 智之;宮原 哲浩
  • 通讯作者:
    宮原 哲浩
    宮原 哲浩
遺伝的プログラミングによるワイルドカード付きブロック保存型外平面的グラフパターンの獲得
通过遗传编程获得带通配符的块守恒平面外图模式
  • DOI:
  • 发表时间:
    2019
    2019
  • 期刊:
  • 影响因子:
    0
  • 作者:
    徳原 史也;沖永 志帆;宮原 哲浩;鈴木 祐介;久保山 哲二;内田 智之;草場彰;宮原哲浩
    徳原 史也;沖永 志帆;宮原 哲浩;鈴木 祐介;久保山 哲二;内田 智之;草場彰;宮原哲浩
  • 通讯作者:
    宮原哲浩
    宮原哲浩
共 36 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 8
前往

宮原 哲浩的其他基金

グラフ構造パターンにより可視化された説明可能なグラフ構造化知識の獲得システム
通过图结构模式可视化的可解释的图结构知识获取系统
  • 批准号:
    22K12172
    22K12172
  • 财政年份:
    2022
  • 资助金额:
    $ 3.52万
    $ 3.52万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
    Grant-in-Aid for Scientific Research (C)
科学的法則を発見する機械学習アルゴリズムの研究
研究机器学习算法发现科学规律
  • 批准号:
    08780369
    08780369
  • 财政年份:
    1996
  • 资助金额:
    $ 3.52万
    $ 3.52万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
    Grant-in-Aid for Encouragement of Young Scientists (A)
科学的法則を発見する機械学習アルゴリズムの研究
研究机器学习算法发现科学规律
  • 批准号:
    07780335
    07780335
  • 财政年份:
    1995
  • 资助金额:
    $ 3.52万
    $ 3.52万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
    Grant-in-Aid for Encouragement of Young Scientists (A)
状況を領域知識として利用する学習アルゴリズムの研究
以情境为领域知识的学习算法研究
  • 批准号:
    06780328
    06780328
  • 财政年份:
    1994
  • 资助金额:
    $ 3.52万
    $ 3.52万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
    Grant-in-Aid for Encouragement of Young Scientists (A)
状況を領域知識として利用する学習アルゴリズムの研究
以情境为领域知识的学习算法研究
  • 批准号:
    05780296
    05780296
  • 财政年份:
    1993
  • 资助金额:
    $ 3.52万
    $ 3.52万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
    Grant-in-Aid for Encouragement of Young Scientists (A)
状況を領域知識として利用する学習アルゴリズムの研究
以情境为领域知识的学习算法研究
  • 批准号:
    04780038
    04780038
  • 财政年份:
    1992
  • 资助金额:
    $ 3.52万
    $ 3.52万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
    Grant-in-Aid for Encouragement of Young Scientists (A)
テキスト構造の帰納推論とその応用
文本结构归纳推理及其应用
  • 批准号:
    02780034
    02780034
  • 财政年份:
    1990
  • 资助金额:
    $ 3.52万
    $ 3.52万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
    Grant-in-Aid for Encouragement of Young Scientists (A)

相似海外基金

FRR: Semi-Structured, Under-Specified, Partially-Observable Robotic Rearrangement
FRR:半结构化、未指定、部分可观察的机器人重排
  • 批准号:
    2309866
    2309866
  • 财政年份:
    2023
  • 资助金额:
    $ 3.52万
    $ 3.52万
  • 项目类别:
    Standard Grant
    Standard Grant
Scalable Cleaning, Integration and Analysis of Structured and Semi-Structured Inconsistent Data
结构化和半结构化不一致数据的可扩展清理、集成和分析
  • 批准号:
    RGPIN-2019-04068
    RGPIN-2019-04068
  • 财政年份:
    2022
  • 资助金额:
    $ 3.52万
    $ 3.52万
  • 项目类别:
    Discovery Grants Program - Individual
    Discovery Grants Program - Individual
Elucidating patient and healthcare practitioner decision-making about chemotherapy-induced peripheral neuropathy-related treatment changes
阐明患者和医疗保健从业者对化疗引起的周围神经病变相关治疗变化的决策
  • 批准号:
    468581
    468581
  • 财政年份:
    2022
  • 资助金额:
    $ 3.52万
    $ 3.52万
  • 项目类别:
    Operating Grants
    Operating Grants
Understanding why clinical investigators launch early phase clinical trials
了解临床研究人员为何开展早期临床试验
  • 批准号:
    486069
    486069
  • 财政年份:
    2022
  • 资助金额:
    $ 3.52万
    $ 3.52万
  • 项目类别:
    Studentship Programs
    Studentship Programs
Understanding Barriers and Facilitators to the Treatment of Sleep-Disordered Breathing in Pregnancy and Postpartum
了解治疗妊娠期和产后睡眠呼吸障碍的障碍和促进因素
  • 批准号:
    468545
    468545
  • 财政年份:
    2022
  • 资助金额:
    $ 3.52万
    $ 3.52万
  • 项目类别:
    Operating Grants
    Operating Grants