最適複合文字列パターン発見アルゴリズムに関する研究
最优复合串模式发现算法研究
基本信息
- 批准号:18700153
- 负责人:
- 金额:$ 1.98万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Young Scientists (B)
- 财政年份:2006
- 资助国家:日本
- 起止时间:2006 至 2007
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
本年度の主な成果は以下の3点である.1)昨年度に引き続き,最適複合文字列パターン発見を行う際に不必要なパターン候補を減らす手法について研究を行った.部分文字列パターンの候補を減らすために,テキストにおける出現箇所に関する部分文字列上の同値関係を定義し,部分文字列を同値類に分解することが考えられる.この部分文字列の同値類分解問題は接尾辞木やCDAWGなどのデータ構造を用いることで,テキスト長に関して線形時間でできることが知られてはいたものの,大きな記憶容量を要した.これに対し,本研究ではこの同値類分解を接尾辞配列と二つの補助配列のみを用いて線形時間で行うアルゴリズムを考案した.また,接尾辞木などを用いた従来アルゴリズムと比べ,計算速度と記憶容量の両面で優れていることを様々なデータに対する計算機実験で示した.2)上述の部分文字列上の同値類分解アルゴリズムを利用することで,インターネット上の掲示板データから特徴的な部分文字列同値類を複数抽出し,それを基に掲示板におけるスパム投稿を検出する効率の良い教師無し学習アルゴリズムを提案した.また計算機実験によりその有効性を確認した.3)様々なパターンクラスに対して最適パターン発見アルゴリズムの実装を行う際に必要な,パターンクラスに依存しない共通点を明確にし,実装作業を簡易化するためのソフトウェア基盤開発に取り組んだ.C++言語のテンプレートを利用したライブラリの基礎設計を行い,プロトタイプを作成した.
今年的主要成果如下: 1)延续去年,我们研究了一种在发现最佳复合串模式时减少不必要的模式候选的方法。为了减少子串的数量,可以定义等价。关于文本中出现的子串的关系,并将子串分解为等价类。尽管众所周知,可以通过使用后缀树和 CDAWG 等数据结构在相对于文本长度的线性时间内解决等价类分解问题,但它需要大量的存储容量,我们设计了一种在文本中执行类分解的算法。仅使用一个后缀数组和两个辅助数组即可实现线性时间。它也优于使用后缀树等的传统算法。我们通过对各种数据的计算机实验表明,它在计算速度和存储容量上都具有优越性。2)利用上述子串的等价类分解算法,提取了多个特征子串等价类,并提出了一种高效的无监督学习算法根据它们检测留言板上的垃圾邮件帖子。我们通过计算机实验证实了其有效性。3)澄清独立于模式类的共同点并简化实现工作,这在为各种模式类实现最佳模式发现算法时是必要的。我们致力于为该项目开发软件基础设施。我们使用C++语言模板设计了基础库并创建了原型。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
A New Family of String Classifiers based on Local Relatedness
基于局部相关性的一类新的字符串分类器
- DOI:
- 发表时间:2006
- 期刊:
- 影响因子:0
- 作者:Higa; Y. et al.
- 通讯作者:Y. et al.
Efficient Computation of Substring Equivalence Classes with Suffix Arrays
具有后缀数组的子串等价类的高效计算
- DOI:
- 发表时间:2007
- 期刊:
- 影响因子:0
- 作者:Narisawa; K.; et. al.
- 通讯作者:et. al.
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
坂内 英夫其他文献
LZ78圧縮されたテキストに対するLyndon分解アルゴリズム
LZ78压缩文本的Lyndon分解算法
- DOI:
- 发表时间:
2014 - 期刊:
- 影响因子:0
- 作者:
井 智弘;中島 祐人;稲永 俊介;坂内 英夫;竹田 正幸 - 通讯作者:
竹田 正幸
坂内 英夫的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('坂内 英夫', 18)}}的其他基金
文字列の辞書式順序の組合せ論とその応用
字符串字典顺序组合学及其应用
- 批准号:
20H04141 - 财政年份:2020
- 资助金额:
$ 1.98万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
文字列属性を含む多属性データからのパターン発見アルゴリズムに関する研究
字符串属性等多属性数据的模式发现算法研究
- 批准号:
15700121 - 财政年份:2003
- 资助金额:
$ 1.98万 - 项目类别:
Grant-in-Aid for Young Scientists (B)
文字の分類とパターン探索アルゴリズムの研究
字符分类与模式搜索算法研究
- 批准号:
13780271 - 财政年份:2001
- 资助金额:
$ 1.98万 - 项目类别:
Grant-in-Aid for Young Scientists (B)
相似海外基金
Toward the integration of segment weight and sonority
致力于音段重量和响度的整合
- 批准号:
17K02832 - 财政年份:2017
- 资助金额:
$ 1.98万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Historical linguistic study of the bound forms containing initial voiced obstruents in the Japanese Language
日语中含声母浊音的装订形式的历史语言学研究
- 批准号:
26370531 - 财政年份:2014
- 资助金额:
$ 1.98万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Knowledge Discovery from Numbers in Text
从文本中的数字发现知识
- 批准号:
22700137 - 财政年份:2010
- 资助金额:
$ 1.98万 - 项目类别:
Grant-in-Aid for Young Scientists (B)
A Descriptive Study of Classhood and Accentuation of English Suffixes and an Analysis within Partial Ordering Theory
英语后缀类别和重读的描述性研究及偏序理论分析
- 批准号:
21520513 - 财政年份:2009
- 资助金额:
$ 1.98万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Development of Practical Succinct Data Structures with Application to Huge Data
开发适用于大数据的实用简洁数据结构
- 批准号:
19680001 - 财政年份:2007
- 资助金额:
$ 1.98万 - 项目类别:
Grant-in-Aid for Young Scientists (A)