Development of Intelligent full text retrieval system based on data compression and fast string pattern matching algorithms

基于数据压缩和快速字符串模式匹配算法的智能全文检索系统开发

基本信息

  • 批准号:
    13558029
  • 负责人:
  • 金额:
    $ 7.17万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
  • 财政年份:
    2001
  • 资助国家:
    日本
  • 起止时间:
    2001 至 2003
  • 项目状态:
    已结题

项目摘要

Suffix trees and Directed Acyclic Word Graphs(DAWGs) are well-known data structures as efficient indexingstructures for strings. We focus on Compact Directed Acyclic Word Graphs(CDAWGs) which are more compact indexing structures, and showed online construction algorithms for them. We also showed an online construction algorithm for an indexing structure consists of every DAWGs for all prefixes of given strings, and proved a lower-bound of the number of states of subsequence automata accepting all subsequences of a given string. We then introduced a new implementation technique based on ternary trees for DAWGs, which balances space efficiency and search time for a large alphabet, such as Japanese texts.We proposed an inverse problem in which we infer an original string from a given unlabelled graph corresponding to the indexing structures of the string. We showed linear-time algorithms for DAWG, subsequence automata, and suffix arrays in this setting. Moreover, we succeeded to prove a tight upper-bound of the length of solutions of world equations containing one variable.Concerning with data compression, we showed a space, efficient algorithm which outputs a compact context-free grammar representing a given string, and proved its approximation ratio. We also showed a linear-time compression algorithm using longest first replacement heuristics.In order to find patterns from large database in reasonable time, we developed several algorithms for classes of generalized patterns. Especially, we proposed an efficient pattern discovery algorithm in which we allow small mismatches of the pattern with data, and verified that it is practical by a series of computational experiments.
后缀树和定向的无环单词图(DAWGS)是众所周知的数据结构,是字符串的有效索引结构。我们专注于紧凑的定向无环词图(CDAWGS),它们是更紧凑的索引结构,并显示了它们的在线构造算法。我们还展示了用于索引结构的在线构造算法由给定字符串的所有前缀的每个dawg组成,并证明了接受给定字符串的所有子序列的子序列自动机的数量较低。然后,我们基于DAWG的三元树引入了一种新的实施技术,该技术平衡了空间效率和搜索大型字母的时间,例如日语文本。我们提出了一个反问题,在该问题中,我们从给定的未标记的图形中推断出与该字符串索引结构相对应的原始图形。我们在此设置中显示了DAWG,子序列自动机和后缀阵列的线性时间算法。此外,我们成功地证明了包含一个变量的世界方程的解决方案的长度上的紧密上限。通过数据压缩,我们展示了一种空间,有效的算法,该算法输出了代表给定字符串的无上下文的无上下文语法,并证明了其近似值。我们还使用最长的第一个替换启发式方法显示了线性时间压缩算法。在合理时间内从大型数据库中查找模式,我们开发了几种广义模式类别的算法。尤其是,我们提出了一种有效的模式发现算法,其中我们允许该模式与数据的微小不匹配,并通过一系列计算实验验证了它是实用的。

项目成果

期刊论文数量(103)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Masayuki Takeda et al.: "Discovering Most Classificatory Patterns for Very Expressive Pattern Classes"Lecture Notes in Computer Science. 2843. 486-493 (2003)
Masayuki Takeda 等人:“发现极具表现力的模式类的大多数分类模式”计算机科学讲义。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
Hideo Bannai et al.: "Inferring Strings from Graphs and Arrays"Lecture Notes in Computer Science. 2747. 208-217 (2003)
Hideo Bannai 等人:“从图形和数组推断字符串”计算机科学讲义。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
Hiroshi Sakamoto: "A Fully Linear-Time Approximation Algorithm for Grammar-Based Compression"Proc.14th Annual Symposium on Combinatorial Pattern Matching (CPM 2003). 348-360 (2003)
Hiroshi Sakamoto:“基于语法的压缩的完全线性时间近似算法”Proc.14th Annual Symposium on Combinatorial Pattern Matching (CPM 2003)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
Kensuke Baba et al.: "A Note on Randomized Algorithm for String Matching with Mismatches"Proc.The Prague Stringology Conference '02 (PSC'02). 29-30 (2002)
Kensuke Baba 等人:“关于不匹配字符串匹配的随机算法的注释”Proc.布拉格弦学会议 02 (PSC02)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
Kensuke Baba, Satoshi Tsuruta, Ayumi Shinohara, Masayuki Takeda: "On the Length of the Minimum Solution of Word Equations in One Variable"Lecture Notes in Computer Science. 2747(MFCS2003). 189-197 (2003)
Kensuke Baba、Satoshi Tsuruta、Ayumi Shinohara、Masayuki Takeda:“论单变量字方程最小解的长度”计算机科学讲义。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

SHINOHARA Ayumi其他文献

SHINOHARA Ayumi的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('SHINOHARA Ayumi', 18)}}的其他基金

Development of e-learning system for university students
大学生电子学习系统的开发
  • 批准号:
    25560067
  • 财政年份:
    2013
  • 资助金额:
    $ 7.17万
  • 项目类别:
    Grant-in-Aid for Challenging Exploratory Research
Development of A Research Support System for Stringology
弦学研究支持系统的开发
  • 批准号:
    23650002
  • 财政年份:
    2011
  • 资助金额:
    $ 7.17万
  • 项目类别:
    Grant-in-Aid for Challenging Exploratory Research
A study on knowledge discovery based on data compression
基于数据压缩的知识发现研究
  • 批准号:
    20300052
  • 财政年份:
    2008
  • 资助金额:
    $ 7.17万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Development of Intelligent Full-text Search System using Efficient Pattern Matching Algorithms on Compressed Data
利用压缩数据的高效模式匹配算法开发智能全文搜索系统
  • 批准号:
    10558047
  • 财政年份:
    1998
  • 资助金额:
    $ 7.17万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B).

相似国自然基金

网络即数据——基于生成式神经网络的高光谱图像压缩
  • 批准号:
    42301437
  • 批准年份:
    2023
  • 资助金额:
    30.00 万元
  • 项目类别:
    青年科学基金项目
基于智能标注与自动建模的道路高频响应时序数据压缩方法
  • 批准号:
    52308449
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
基于图像区块编码的基因组测序数据压缩及二维随机访问方法
  • 批准号:
    62362050
  • 批准年份:
    2023
  • 资助金额:
    32 万元
  • 项目类别:
    地区科学基金项目
基于数据压缩神经网络的偶极和非厄米体系局域化相变性质研究
  • 批准号:
    12305015
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
谱压缩感知的低秩嵌入理论与非凸优化算法研究
  • 批准号:
    12371464
  • 批准年份:
    2023
  • 资助金额:
    44.00 万元
  • 项目类别:
    面上项目

相似海外基金

Collaborative Research: OAC Core: Topology-Aware Data Compression for Scientific Analysis and Visualization
合作研究:OAC 核心:用于科学分析和可视化的拓扑感知数据压缩
  • 批准号:
    2313124
  • 财政年份:
    2023
  • 资助金额:
    $ 7.17万
  • 项目类别:
    Standard Grant
BRAIN CONNECTS: A Center for High-throughput Integrative Mouse Connectomics
大脑连接:高通量集成鼠标连接组学中心
  • 批准号:
    10665380
  • 财政年份:
    2023
  • 资助金额:
    $ 7.17万
  • 项目类别:
HEAR-HEARTFELT (Identifying the risk of Hospitalizations or Emergency depARtment visits for patients with HEART Failure in managed long-term care through vErbaL communicaTion)
倾听心声(通过口头交流确定长期管理护理中的心力衰竭患者住院或急诊就诊的风险)
  • 批准号:
    10723292
  • 财政年份:
    2023
  • 资助金额:
    $ 7.17万
  • 项目类别:
Collaborative Research: OAC Core: Topology-Aware Data Compression for Scientific Analysis and Visualization
合作研究:OAC 核心:用于科学分析和可视化的拓扑感知数据压缩
  • 批准号:
    2313122
  • 财政年份:
    2023
  • 资助金额:
    $ 7.17万
  • 项目类别:
    Standard Grant
STTR Phase I: Machine Learning-Based Smart Data Compression Solutions for Structural Health Monitoring Sensors
STTR 第一阶段:用于结构健康监测传感器的基于机器学习的智能数据压缩解决方案
  • 批准号:
    2321884
  • 财政年份:
    2023
  • 资助金额:
    $ 7.17万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了