最適パターン発見に基づく大規模半構造データからの知的情報獲得システムの開発
基于最优模式发现的大规模半结构化数据智能信息获取系统开发
基本信息
- 批准号:13224073
- 负责人:
- 金额:--
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Scientific Research on Priority Areas (C)
- 财政年份:2001
- 资助国家:日本
- 起止时间:2001 至 无数据
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
ネットワーク上に分散したウェブページやXML等の半構造データの急速な増大に対して,これらのコンテンツに直接アクセスするための効率良い手法の開発が緊急の課題となっている.本研究では,大規模半構造データからのデータマイニング(ウェブマイニング)に基づき,大量のデータ解析を対話的に支援する効率的なツールとして,従来の情報検索システムを超えた新しい情報アクセスシステムの開発を目指す.そのために,鍵となる技術として,最適パターン発見を木やグラフ構造に拡張して,半構造データに対する頑健かつ高速な最適化パターン発見アルゴリズムを開発する.さらに,ウェブマイニングを(a)有用な情報源の発見,および(b)特徴的なパターンの発見,(c)情報抽出の3つの過程からなると考え,これらを有機的に結合して,半構造データを対象とした知識獲得システムの効率良い実現方式を明らかにすることを目標とする,また,計算量理論と計算学習理論の最新の成果を援用して,計算量に徹底的に配慮した高速なアルゴリズムの開発を目指すことも特色である.平成13年度は,次の研究成果を得た.(a)「有用な情報源の発見」に関しては,部分系列パターンとエピソードパターンと呼ぶ組合せパターンに対する効率よい最適化マイニングアルゴリズムを開発し,これを文字列分類のための決定木学習アルゴリズムBONSAIに組み込んだ.(b)「特徴的なパターンの発見」に関しては,半構造データを最も基本的なラベル付き順序木(labeled ordered trees)のクラスとしてモデル化し,データ中の頻出共通部分構造に対する高速な発見アルゴリズムを開発した.木に関するパターン発見問題は,一般に高い計算量をもつことが多い.そこで,最右枝拡張法という効率よい発見手法を与え,これを複数の最適化手法と組み合わせて,半構造データに対する高速なマイニングアルゴリズムを与えた.(c)「情報抽出」に関しては,ウェブからの情報抽出問題を考察し,HTMLデータから木構造の情報を利用して必要な情報を効率よく切り出すTree-Wrapperアルゴリズムを開発した.
随着网络上分布的网页和XML等半结构化数据的快速增加,开发直接访问这些内容的有效方法已成为一个紧迫的问题。正在使用传统信息作为有效工具来交互式支持大量数据的分析。我们的目标是开发一种超越搜索系统的新型信息访问系统。为此,关键技术是将最优模式发现扩展到树和图结构,并针对半结构化数据开发鲁棒且快速的优化模式发现算法。此外,网络挖掘还可用于(a)发现有用的信息源,(b)发现独特的模式,以及(c)提取信息。我们的目标是将这三个过程有机地结合起来,揭示一种针对半结构化数据的知识获取系统的有效实现方法。我们研究的另一个特点是,我们的目标是开发充分考虑计算复杂性的高速算法。利用最新的理论成果。2001财年,我们获得了以下研究成果:(a)关于有用信息源的发现,我们开发了一种有效的组合模式优化挖掘算法,称为子序列模式和情景模式,并将其纳入字符串分类的决策树学习算法 BONSAI 中。(b) 关于“特征模式的发现” ”,半结构化数据可以转化为最基本的带标签有序树(labeledorderedtree)。已订购我们开发了一种高速发现算法,针对数据中经常出现的常见子结构问题,提供了一种良好的发现方法,并将其与多种优化方法相结合。此外,我们还提供了半结构化数据的高速挖掘算法。 (c)关于“信息提取”,我们考虑了从网络中提取信息的问题,并使用树结构信息从HTML数据中提取必要的信息。我们开发了一种可以有效提取数据的 Tree-Wrapper 算法。
项目成果
期刊论文数量(6)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
村上 他(第3著者): "HTMLからのテキストの自動切りだしアルゴリズムと実装"情報処理学会論文誌:数理モデル化と応用. 42:SIG14 (TOM5). 39-49 (2001)
Murakami 等人(第三作者):“从 HTML 自动提取文本的算法和实现”,日本信息处理学会汇刊:数学建模和应用 42:SIG14 (TOM5)。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
T.Asai, et al.(第4著者): "Efficient Substructure Discovery from Large Semi-structured Data"Proc.Second SIAM International Conference on Data Mining 2002 (SDM'02). (発表予定). (2002)
T.Asai 等人(第四作者):“来自大型半结构化数据的高效子结构发现”Proc.2002 年第二届 SIAM 国际数据挖掘会议(SDM02)(待提交)。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
M.Hirao et al.: "A Practical Algorithm to Find the Best Episode Patterns"Proc.the 4th International Conference on Discovery Science. LNCS 2226. 435-440 (2001)
M.Hirao 等人:“寻找最佳情节模式的实用算法”Proc.第四届国际发现科学会议。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
H.Arimura, et al.: "Efficient Learning of Semi-structured Data from Queries"Proc.the 12th International Conference on Algorithmic Learning Theory (ALT'O1). LNAI 2225. 315-331 (2001)
H.Arimura 等人:“从查询中有效学习半结构化数据”Proc.第 12 届国际算法学习理论会议 (ALTO1)。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
K.Taniguchi, et al.(第3著者): "Mining Semi-Structured Data by Path Expressions"Proc.the 4th International Conference on Discovery Science. LNAI 2226. 378-388 (2001)
K.Taniguchi 等人(第三作者):“通过路径表达式挖掘半结构化数据”Proc.第四届国际发现科学会议 2226. 378-388 (2001)
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
有村 博紀其他文献
三次元空間におけるRMSD距離に基づく近似点集合マッチングの高速化
三维空间中基于RMSD距离的近似点集匹配加速
- DOI:
- 发表时间:
2016 - 期刊:
- 影响因子:0
- 作者:
佐々木 耀一;渋谷 哲朗;伊藤 公人;有村 博紀 - 通讯作者:
有村 博紀
決定木要約の効率良い構築法 -- 説明可能な人工知能の実現に向けて --
决策树摘要的高效构建方法——迈向可解释人工智能的实现——
- DOI:
- 发表时间:
2020 - 期刊:
- 影响因子:0
- 作者:
有村 博紀; 金森 憲太朗; 王 叶 - 通讯作者:
王 叶
有村 博紀的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('有村 博紀', 18)}}的其他基金
Development of Next-generation Semi-Structured Data Mining Technology Towards The Real-World Knowledge Creation Infrastructure
面向现实世界知识创造基础设施的下一代半结构化数据挖掘技术的开发
- 批准号:
20H00595 - 财政年份:2020
- 资助金额:
-- - 项目类别:
Grant-in-Aid for Scientific Research (A)
大規模オブジエクト指向データベースを対象とした知識獲得システムの研究
大规模面向对象数据库知识获取系统研究
- 批准号:
07780339 - 财政年份:1995
- 资助金额:
-- - 项目类别:
Grant-in-Aid for Encouragement of Young Scientists (A)
大規模オブジエクト指向データベースを対象とした知識獲得システムの研究
大规模面向对象数据库知识获取系统研究
- 批准号:
07780339 - 财政年份:1995
- 资助金额:
-- - 项目类别:
Grant-in-Aid for Encouragement of Young Scientists (A)
プログラム自動合成システムにおける一般化を用いた効率的学習の基礎的研究
自动程序合成系统中泛化高效学习的基础研究
- 批准号:
04750354 - 财政年份:1992
- 资助金额:
-- - 项目类别:
Grant-in-Aid for Encouragement of Young Scientists (A)
相似海外基金
Mining Structural Changes
矿业结构变化
- 批准号:
21300047 - 财政年份:2009
- 资助金额:
-- - 项目类别:
Grant-in-Aid for Scientific Research (B)
Efficient Learning of Maximum Margin Sparse Hyperplanes wih Bias
带偏差的最大裕度稀疏超平面的高效学习
- 批准号:
21700171 - 财政年份:2009
- 资助金额:
-- - 项目类别:
Grant-in-Aid for Young Scientists (B)
最適複合文字列パターン発見アルゴリズムに関する研究
最优复合串模式发现算法研究
- 批准号:
18700153 - 财政年份:2006
- 资助金额:
-- - 项目类别:
Grant-in-Aid for Young Scientists (B)