データベースから近似的な規則を抽出する高速アルゴリズムの研究

数据库近似规则提取高速算法研究

基本信息

  • 批准号:
    12780286
  • 负责人:
  • 金额:
    $ 1.15万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
  • 财政年份:
    2000
  • 资助国家:
    日本
  • 起止时间:
    2000 至 2001
  • 项目状态:
    已结题

项目摘要

本研究では最大合意問題とよばれる規則獲得の問題を発展させ,例からの規則抽出一般に適用する枠組みを提案した.そして効率のよい近似アルゴリズムを設計するための理論構築を行い,さらに実用性を確かめるためのプロトタイピングを行った.具体的には,エントロピー関数など様々な評価関数を使用できるよう拡張した.アプリケーション面では特に,ネットワーク上のウェブのソースファイル,SGMLファイルなど,従来のデータマイニング手法が苦手とする弱構造の大規模データベースヘの応用を行った.まず最大合意問題の評価関数をより一般に拡張し,例の分類精度をエントロピー,Giniインデックスなどを使って評価する方法を考察した.そして高速なアルゴリズムを設計し,さらにその実装評価を行った.現実の要求に近づけた状況で,メモリやディスクスペースを効果的に使用する技術とアルゴリズムとの親和性を,実験的にも検証した.特に,弱い構造,あるいは疑構造しか仮定できないテキストデータベースに対して,レコードの構造や登録項目(アイテム)をあらかじめ固定して想定する必要のない,入力に対して動的にレコードの処理や登録項目の抽出を行うシステムを構築した.その成果として,現実のテキストデータベースなどを対象とした知識抽出システムのプロトタイピングを行い,最大合意問題に基づくシステムの能力と実用上の問題点を明らかにした.
在这项研究中,我们开发了获得称为最大共识问题的规则的问题,并提出了一个将规则提取从示例中提取到一般示例的框架。然后,我们构建了理论以设计有效的近似算法,并进行了进一步的原型来验证实用性。具体而言,我们扩展了各种评估功能(例如熵功能)的使用。特别是,我们应用于具有弱结构的大规模数据库,例如网络上的Web源文件,SGML文件等,这些文件在常规数据挖掘方法上很差。首先,我们更普遍地扩展了最大共识问题的评估功能,并使用熵,Gini索引等评估了示例的分类精度。我们还研究了高速算法并评估了其实现。我们还通过实验验证了在接近实际需求的情况下有效地使用内存和磁盘空间的技术之间的亲和力。特别是,我们构建了一个系统,该系统会动态处理记录并提取注册的输入项目,而无需将记录的结构和注册项目(项目)预先预先,因为文本数据库只能假设弱或可疑的结构。结果,我们将针对真实文本数据库等的知识提取系统进行制作,从而根据最大共识问题揭示了系统的功能和实际问题。

项目成果

期刊论文数量(20)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
安部 潤一郎, 藤野 亮一, 下薗 真一, 有村 博紀, 有川 節夫: "テキストデータからの高速データマイニング--探索的文書ブラウジングとウェブデータヘの応用--"人工知能学会誌. 15(4). 618-628 (2000)
Junichiro Abe、Ryoichi Fujino、Shinichi Shimozono、Hiroki Arimura、Setsuo Arikawa:“文本数据的高速数据挖掘——探索性文档浏览和网络数据应用——”日本人工智能学会杂志 15(4)。 618-628(2000)
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
T.Akutsu,H.Arimura,S.Shimozono: "On Approximation Algorithms for Local Multiple Alignment"Proc.of the Fourth Annual, International Conference on Computational Molecular Biology (RECOMB 2000). 1-7 (2000)
T.Akutsu、H.Arimura、S.Shimozono:“关于局部多重比对的近似算法”第四届国际计算分子生物学会议年度报告(RECOMB 2000)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
N.Kubo,S.Shimozono,K.Muramoto: "A Simple and Quick Approximation Algorithm for Traveling Salesman Problem in the Plane"Proc.of the 11th Interrational Conference on Algorithm and Computation. 216-227 (2000)
N.Kubo,S.Shimozono,K.Muramoto:“飞机上旅行商问题的简单快速近似算法”第 11 届国际算法与计算会议论文集。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
S.Shimozono, H.Arimura, S.Arikawa: "Efficient discoverly of optimal word-association patterns in large text databases"New Generation Computing. 18. 49-61 (2000)
S.Shimozono、H.Arimura、S.Arikawa:“在大型文本数据库中有效发现最佳单词关联模式”新一代计算。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
N.Sugimoto,T.Toyoshima,S.Shimozono,K.Hirata: "Constructive learning of Context-Free Languages with a Subpansive Tree"Proc.of the 5th International Colloquium on Grammatical Inference. 270-283 (2000)
N.Sugimoto,T.Toyoshima,S.Shimozono,K.Hirata:“用子泛树进行上下文无关语言的建设性学习”第五届国际语法推理研讨会论文集。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

下薗 真一其他文献

SQL による評価関数の外部定義が可能な最適時間割作成システム
允许使用 SQL 外部定义评估函数的最佳时间表创建系统
幾何点列近似照合を用いたタンパク質二次構造近似検索の実現
利用几何点序列近似匹配实现蛋白质二级结构近似搜索
空間索引を用いたバイナリプログラムの高速照合
使用空间索引高速匹配二进制程序

下薗 真一的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('下薗 真一', 18)}}的其他基金

最適作業時間割問題のカスタマイザブルCADシステム
可定制的 CAD 系统解决最佳工作时间表问题
  • 批准号:
    16700147
  • 财政年份:
    2004
  • 资助金额:
    $ 1.15万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
近似圧縮アルゴリズムによるテキストデータ処理の高速化
使用近似压缩算法加速文本数据处理
  • 批准号:
    08780373
  • 财政年份:
    1996
  • 资助金额:
    $ 1.15万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
近似圧縮アルゴリズムによるテキストデータ処理の高速化
使用近似压缩算法加速文本数据处理
  • 批准号:
    07780341
  • 财政年份:
    1995
  • 资助金额:
    $ 1.15万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)

相似海外基金

形状記憶合金の相転移現象を記述する方程式系に対する調和解析的手法を用いた研究
调和分析法描述形状记忆合金相变现象方程组的研究
  • 批准号:
    05J04694
  • 财政年份:
    2005
  • 资助金额:
    $ 1.15万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
Research on modeling and algorithms for network problems
网络问题建模与算法研究
  • 批准号:
    16092215
  • 财政年份:
    2004
  • 资助金额:
    $ 1.15万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了