Development of Intelligent Full-text Search System using Efficient Pattern Matching Algorithms on Compressed Data

利用压缩数据的高效模式匹配算法开发智能全文搜索系统

基本信息

  • 批准号:
    10558047
  • 负责人:
  • 金额:
    $ 6.66万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research (B).
  • 财政年份:
    1998
  • 资助国家:
    日本
  • 起止时间:
    1998 至 2000
  • 项目状态:
    已结题

项目摘要

From a theoretical point of view on compressed pattern matching, we introduced a unified frame work, called Collage System, for various dictionary-based data compression methods. We developed both Knuth-Morris-Pratt type and Boyer-Moore type pattern matching algorithms for Collage Systems. We adopted these algorithms for Byte-Pair-Encoding compression method, that yields the fastest compressed pattern matching algorithm in practice. Multiple pattern matching and approximate string matching were also successfully dealt with Collage Systems. We also applied the method for Sequitur, that is another hopeful a compression program, and verified its performance. Moreover, we studied an efficient fully compressed pattern matching for balanced straight-line programs, where not only text strings but also pattern strings are compressed. We also developed an online algorithm that constructs a subsequence automaton from given set of strings, that accepts all subsequences of any string in the set. The algorithm is the fastest, and we verified that it is quite useful to accelerate a knowledge discovery system. On the other hand, concerning with knowledge discovery from database, we studied on the learnability of transformation rules of trees from examples, and searching optimal association rules of words from large text databases. Journal of Discrete Algorithms, 1(1), 2000
从压缩模式匹配的理论角度来看,我们为各种基于字典的数据压缩方法引入了一个统一的框架,称为拼贴系统。我们为拼贴系统开发了 Knuth-Morris-Pratt 型和 Boyer-Moore 型模式匹配算法。我们采用这些算法进行字节对编码压缩方法,产生实践中最快的压缩模式匹配算法。拼贴系统还成功地处理了多重模式匹配和近似字符串匹配。我们还应用了另一个有希望的压缩程序Sequitur的方法,并验证了其性能。此外,我们研究了一种用于平衡直线程序的高效完全压缩模式匹配,其中不仅压缩文本字符串,而且还压缩模式字符串。我们还开发了一种在线算法,可以根据给定的字符串集构造子序列自动机,该子序列自动机接受该集中任何字符串的所有子序列。该算法是最快的,我们验证了它对于加速知识发现系统非常有用。另一方面,针对数据库知识发现,我们研究了树的变换规则从实例中的可学习性,以及从大型文本数据库中搜索单词的最佳关联规则。离散算法杂志,1(1),2000

项目成果

期刊论文数量(117)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Y.Shibata et al.: "Speeding Up Pattern Matching by Text Compression"Proc. 4th Italian Conf.on Algorithms and Complexity. LNCS1767. 306-316 (2000)
Y.Shibata 等人:“通过文本压缩加速模式匹配”Proc。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
H.Sakamoto et al.: "Identification of tree translation rules from examples"Proc.5th International Colloquium on Grammatical Inference. LNAI1891. 240-255 (2000)
H.Sakamoto 等人:“从示例中识别树翻译规则”Proc.5th International Colloquium on Grammatical Inference。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
M.Miyazaki,A.Shinohara and M.Takeda: "An Improved Pattern Matching Algorithm for Strings in terms of Straight-line Programs"Journal of Discrete Algorithms. 1(1). (2000)
M.Miyazaki、A.Shinohara 和 M.Takeda:“一种改进的直线程序字符串模式匹配算法”离散算法杂志。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
M.Takeda,Y.Shibata,T.Matsumoto,T.Kida,A.Shinohara,S.Fukamachi,T.Shinohara and S.Arikawa: "Speeding up string pattern matching by text compression : The dawn of a new era"情報処理学会論文誌. 42(3). (2001)
M.Takeda、Y. Shibata、T. Matsumoto、T. Kida、A. Shinohara、S. Fukamachi、T. Shinohara 和 S. Arikawa:“通过文本压缩加速字符串模式匹配:新时代的黎明”信息日本加工协会杂志42(3) (2001)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
M. Yamasaki et al.: "Discovering characteritic patterns from collections of classical Japanese Poems" Prof. 1st Int. Conf. on Discovery Science. LNAI1532. 129-140 (1998)
M. Yamasaki 等人:“从日本古典诗歌集中发现特征模式”教授 1st Int。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

SHINOHARA Ayumi其他文献

SHINOHARA Ayumi的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('SHINOHARA Ayumi', 18)}}的其他基金

Development of e-learning system for university students
大学生电子学习系统的开发
  • 批准号:
    25560067
  • 财政年份:
    2013
  • 资助金额:
    $ 6.66万
  • 项目类别:
    Grant-in-Aid for Challenging Exploratory Research
Development of A Research Support System for Stringology
弦学研究支持系统的开发
  • 批准号:
    23650002
  • 财政年份:
    2011
  • 资助金额:
    $ 6.66万
  • 项目类别:
    Grant-in-Aid for Challenging Exploratory Research
A study on knowledge discovery based on data compression
基于数据压缩的知识发现研究
  • 批准号:
    20300052
  • 财政年份:
    2008
  • 资助金额:
    $ 6.66万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Development of Intelligent full text retrieval system based on data compression and fast string pattern matching algorithms
基于数据压缩和快速字符串模式匹配算法的智能全文检索系统开发
  • 批准号:
    13558029
  • 财政年份:
    2001
  • 资助金额:
    $ 6.66万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)

相似国自然基金

基于智能标注与自动建模的道路高频响应时序数据压缩方法
  • 批准号:
    52308449
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
基于图像区块编码的基因组测序数据压缩及二维随机访问方法
  • 批准号:
    62362050
  • 批准年份:
    2023
  • 资助金额:
    32 万元
  • 项目类别:
    地区科学基金项目
基于数据压缩神经网络的偶极和非厄米体系局域化相变性质研究
  • 批准号:
    12305015
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
面向高通量神经接口的混合信号数据压缩技术研究
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
高通量测序的序列数据压缩以及纠错算法研究
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

Collaborative Research: OAC Core: Topology-Aware Data Compression for Scientific Analysis and Visualization
合作研究:OAC 核心:用于科学分析和可视化的拓扑感知数据压缩
  • 批准号:
    2313124
  • 财政年份:
    2023
  • 资助金额:
    $ 6.66万
  • 项目类别:
    Standard Grant
HEAR-HEARTFELT (Identifying the risk of Hospitalizations or Emergency depARtment visits for patients with HEART Failure in managed long-term care through vErbaL communicaTion)
倾听心声(通过口头交流确定长期管理护理中的心力衰竭患者住院或急诊就诊的风险)
  • 批准号:
    10723292
  • 财政年份:
    2023
  • 资助金额:
    $ 6.66万
  • 项目类别:
BRAIN CONNECTS: A Center for High-throughput Integrative Mouse Connectomics
大脑连接:高通量集成鼠标连接组学中心
  • 批准号:
    10665380
  • 财政年份:
    2023
  • 资助金额:
    $ 6.66万
  • 项目类别:
STTR Phase I: Machine Learning-Based Smart Data Compression Solutions for Structural Health Monitoring Sensors
STTR 第一阶段:用于结构健康监测传感器的基于机器学习的智能数据压缩解决方案
  • 批准号:
    2321884
  • 财政年份:
    2023
  • 资助金额:
    $ 6.66万
  • 项目类别:
    Standard Grant
Compressed learning: theory and application of data compression technique that allows direct learning from optimally encoded data
压缩学习:数据压缩技术的理论和应用,允许从最佳编码数据中直接学习
  • 批准号:
    23K11233
  • 财政年份:
    2023
  • 资助金额:
    $ 6.66万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了