Study of High-speed Data Mining Algorithms from Massive Data Streams

海量数据流高速数据挖掘算法研究

基本信息

项目摘要

In this research, we investigated high-speed online knowledge discovery system for extracting useful information from massive semi-structured data streams. Particularly in this year, as theoretical researches, we extended further the theory of efficient pattern matching and pattern discovery methods for online streams. As application studies, we made a series of experiments on collection and analysis of network data from real high-speed networks in a huge organization. We have also published the results obtained in the research period of the last three years. In particular, we proceed the studies on the following issues:(1)Survey on semi-structured data : We have summarized and published a survey on stream data mining in an academic journal, which has been studied through this project for the last three years.(2)Study on streaming pattern matching technology for semi-structured data : We developed an efficient method for performing tree pattern matching with horizontal wildcards by bit parallel technology, which potentially gives drastic speed-up for Xpath and XQuery pattern matching languages for huge XML data.(3)Study on sequential and streaming pattern discovery technology for semi-structured data : We developed efficient algorithms for finding interesting patterns from massive data streams for various classes of complex patterns/motifs. In this year, we also published pattern discovery algorithms developed in the last year. Also, one of them got awarded for 2004 JSAI SIG AWARD.(4)Empirical study on knowledge discovery from real massive network data : As applications, we performed a series of surveys on data collection and online analysis of high-speed large-scale network for middle sized organization at Kyushu University. These experiments will give insights for future research on the development of efficient pattern matching/discovery algorithms for high-speed streaming data.
在这项研究中,我们研究了高速在线知识发现系统,用于从大量半结构数据流中提取有用的信息。特别是在今年,作为理论研究,我们进一步扩展了在线流的有效模式匹配和模式发现方法的理论。作为应用程序研究,我们对来自一个庞大组织中实际高速网络的网络数据收集和分析进行了一系列实验。我们还发布了过去三年研究期间获得的结果。特别是,我们对以下问题进行了研究:(1)对半结构化数据的调查:我们已经汇总并发布了一项关于流数据挖掘的调查,在一本学术期刊中,该项目在过去三年中通过该项目进行了研究。大量XML数据的模式匹配语言。(3)对半结构数据的顺序和流式图案发现技术的研究:我们开发了有效的算法,用于从大量数据流中查找各种复杂模式/图案类别的有趣模式。今年,我们还发布了去年开发的模式发现算法。此外,其中一位获得了2004年JSAI SIG奖。(4)从实际大规模网络数据中发现知识发现的实证研究:作为应用程序,我们对京都大学的中大型组织的高速大规模大规模网络进行了一系列调查。这些实验将为未来的研究提供有关高速流数据数据的有效模式匹配/发现算法的研究的见解。

项目成果

期刊论文数量(40)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Kensuke Baba et al.: "On the Length of the Minimum Solution of Word Equations in One Variable"Lecture Notes in Computer Science. 2747. 189-197 (2003)
Kensuke Baba 等人:“论单变量词方程的最小解的长度”计算机科学讲义。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
Shunsuke Inenaga et al.: "Linear-time off-line text compression by longest-first substitution"Lecture Notes in Computer Science. 8572. 137-152 (2003)
Shunsuke Inenaga 等人:“通过最长优先替换进行线性时间离线文本压缩”计算机科学讲义。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
Efficient Algorithms for Finding Frequent Substructures from Semi-structured Data Streams
  • DOI:
    10.1007/978-3-540-71009-7_3
  • 发表时间:
    2003-06
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Tatsuya Asai;K. Abe;Shinji Kawasoe;Hiroki Arimura;S. Arikawa
  • 通讯作者:
    Tatsuya Asai;K. Abe;Shinji Kawasoe;Hiroki Arimura;S. Arikawa
A Polynomial Space and Polynomial Delay Algorithm for Enumeration of Maximal Motifs in a Sequence
用于枚举序列中最大图案的多项式空间和多项式延迟算法
Faster Pattern Matching Algorithm for Arc-Annotated Sequences
用于弧注释序列的更快模式匹配算法
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

IKEDA Daisuke其他文献

IKEDA Daisuke的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('IKEDA Daisuke', 18)}}的其他基金

Hierarchical Discovery of Sub-structures and Rare Patterns of Them in Large Text Data
大文本数据中子结构及其罕见模式的分层发现
  • 批准号:
    24300059
  • 财政年份:
    2012
  • 资助金额:
    $ 9.98万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Test of Radar Echo Detection using Electron Beam for Future Large Air Shower Observatory
未来大型风淋室天文台电子束雷达回波探测试验
  • 批准号:
    23654078
  • 财政年份:
    2011
  • 资助金额:
    $ 9.98万
  • 项目类别:
    Grant-in-Aid for Challenging Exploratory Research
Evolution of fast skeletal myosin heavy chain genes of fish
鱼类快速骨骼肌球蛋白重链基因的进化
  • 批准号:
    23780214
  • 财政年份:
    2011
  • 资助金额:
    $ 9.98万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
Research on statistical discovery of a wide var i ety of patterns with low frequencies and its applications
多种低频模式的统计发现及其应用研究
  • 批准号:
    21650031
  • 财政年份:
    2009
  • 资助金额:
    $ 9.98万
  • 项目类别:
    Grant-in-Aid for Challenging Exploratory Research
The origin and purpose of fast skeletal muscle myosin heavy chain gene cluster of vertebrates
脊椎动物快骨骼肌肌球蛋白重链基因簇的起源和目的
  • 批准号:
    21780198
  • 财政年份:
    2009
  • 资助金额:
    $ 9.98万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
Pattern Discovery from Large Text Data Based on the Property of Languages Being Scale-Free
基于语言无标度特性的大文本数据模式发现
  • 批准号:
    19700150
  • 财政年份:
    2007
  • 资助金额:
    $ 9.98万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)

相似国自然基金

基于集成学习的分布式XML数据流的挖掘模型与概念漂移挖掘方法研究
  • 批准号:
    61773415
  • 批准年份:
    2017
  • 资助金额:
    64.0 万元
  • 项目类别:
    面上项目
面向XML数据集成的完整性约束挖掘方法研究
  • 批准号:
    61142007
  • 批准年份:
    2011
  • 资助金额:
    30.0 万元
  • 项目类别:
    专项基金项目
基于标记树的XML文档自动聚类和分类研究
  • 批准号:
    70803046
  • 批准年份:
    2008
  • 资助金额:
    17.0 万元
  • 项目类别:
    青年科学基金项目
基于核矩阵学习的半结构化文本挖掘研究
  • 批准号:
    60642001
  • 批准年份:
    2006
  • 资助金额:
    7.0 万元
  • 项目类别:
    专项基金项目
纯XML数据库管理系统中的关键问题
  • 批准号:
    60573094
  • 批准年份:
    2005
  • 资助金额:
    23.0 万元
  • 项目类别:
    面上项目

相似海外基金

OME-XML: Development of a Data Standard for Biological Light Microscopy
OME-XML:生物光学显微镜数据标准的开发
  • 批准号:
    7587392
  • 财政年份:
    2008
  • 资助金额:
    $ 9.98万
  • 项目类别:
OME-XML: Development of a Data Standard for Biological Light Microscopy
OME-XML:生物光学显微镜数据标准的开发
  • 批准号:
    7452018
  • 财政年份:
    2008
  • 资助金额:
    $ 9.98万
  • 项目类别:
Research on Efficient and Practical Semi-Structured Data Mining Techniques Applicable to WWW
适用于WWW的高效实用半结构化数据挖掘技术研究
  • 批准号:
    16300030
  • 财政年份:
    2004
  • 资助金额:
    $ 9.98万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Development of knowledge discovery system and research of business process for the implementation
知识发现系统开发及实施业务流程研究
  • 批准号:
    15500096
  • 财政年份:
    2003
  • 资助金额:
    $ 9.98万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Discovery Knowledge and Data Mining from Structured Data
从结构化数据中发现知识和数据挖掘
  • 批准号:
    13680459
  • 财政年份:
    2001
  • 资助金额:
    $ 9.98万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了