最適複合文字列パターン発見アルゴリズムに関する研究
最优复合串模式发现算法研究
基本信息
- 批准号:18700153
- 负责人:
- 金额:$ 1.98万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Young Scientists (B)
- 财政年份:2006
- 资助国家:日本
- 起止时间:2006 至 2007
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
本年度の主な成果は以下の3点である.1)昨年度に引き続き,最適複合文字列パターン発見を行う際に不必要なパターン候補を減らす手法について研究を行った.部分文字列パターンの候補を減らすために,テキストにおける出現箇所に関する部分文字列上の同値関係を定義し,部分文字列を同値類に分解することが考えられる.この部分文字列の同値類分解問題は接尾辞木やCDAWGなどのデータ構造を用いることで,テキスト長に関して線形時間でできることが知られてはいたものの,大きな記憶容量を要した.これに対し,本研究ではこの同値類分解を接尾辞配列と二つの補助配列のみを用いて線形時間で行うアルゴリズムを考案した.また,接尾辞木などを用いた従来アルゴリズムと比べ,計算速度と記憶容量の両面で優れていることを様々なデータに対する計算機実験で示した.2)上述の部分文字列上の同値類分解アルゴリズムを利用することで,インターネット上の掲示板データから特徴的な部分文字列同値類を複数抽出し,それを基に掲示板におけるスパム投稿を検出する効率の良い教師無し学習アルゴリズムを提案した.また計算機実験によりその有効性を確認した.3)様々なパターンクラスに対して最適パターン発見アルゴリズムの実装を行う際に必要な,パターンクラスに依存しない共通点を明確にし,実装作業を簡易化するためのソフトウェア基盤開発に取り組んだ.C++言語のテンプレートを利用したライブラリの基礎設計を行い,プロトタイプを作成した.
今年的主要成果如下: 1)延续去年,我们研究了一种在发现最佳复合串模式时减少不必要的模式候选的方法。为了减少子串的数量,可以定义等价。关于文本中出现的子串的关系,并将子串分解为等价类。尽管众所周知,可以通过使用后缀树和 CDAWG 等数据结构在相对于文本长度的线性时间内解决等价类分解问题,但它需要大量的存储容量,我们设计了一种在文本中执行类分解的算法。仅使用一个后缀数组和两个辅助数组即可实现线性时间。它也优于使用后缀树的传统算法。我们通过对各种数据的计算机实验表明,它在计算速度和存储容量上都具有优越性。2)利用上述子串的等价类分解算法,提取了多个特征子串等价类,并提出了一种高效的无监督学习算法根据它们检测留言板上的垃圾邮件帖子。我们通过计算机实验证实了其有效性。3)澄清独立于模式类的共同点并简化实现工作,这在为各种模式类实现最佳模式发现算法时是必要的。我们致力于为该项目开发软件基础设施。我们使用C++语言模板设计了基础库并创建了原型。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Efficient computation of substring equivalence classes with suffix arrays
- DOI:10.1007/s00453-016-0178-z
- 发表时间:2007-01-01
- 期刊:
- 影响因子:0
- 作者:Narisawa, Kazuyuki;Inenaga, Shunsuke;Takeda, Masayuki
- 通讯作者:Takeda, Masayuki
A New Family of String Classifiers based on Local Relatedness
基于局部相关性的一类新的字符串分类器
- DOI:
- 发表时间:2006
- 期刊:
- 影响因子:0
- 作者:Yasuto Higa;他3名
- 通讯作者:他3名
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
坂内 英夫其他文献
Serpentine minerals from Irikura, Oita Prefecture, Japan
产自日本大分县入仓的蛇纹石矿物
- DOI:
- 发表时间:
2016 - 期刊:
- 影响因子:0
- 作者:
中島 祐人;稲永 俊介;坂内 英夫;竹田 正幸;加藤隆文;長谷川亮太・山口飛鳥・福地里菜・石川剛志・北村有迅;延寿 里美 - 通讯作者:
延寿 里美
日向沖南海トラフ前弧域の浅部活構造
日向附近南海海槽弧前区的浅层活动构造
- DOI:
- 发表时间:
2016 - 期刊:
- 影响因子:0
- 作者:
中島 祐人;稲永 俊介;坂内 英夫;竹田 正幸;加藤隆文;長谷川亮太・山口飛鳥・福地里菜・石川剛志・北村有迅;延寿 里美;加藤隆文;加藤隆文;山口飛鳥・新井和乃・池原研・金松敏也・福地里菜・中村恭之・宇佐美和子・奥津なつみ・清家弘治・芦寿一郎;加藤隆文;山口飛鳥・福地里菜・濱橋真理・清水真由子・江口大賀・金川久一;Takafumi Kato;加藤隆文;芦寿一郎・山口飛鳥・福地里菜・大出晃弘・奥津なつみ・田淵優・池原研 - 通讯作者:
芦寿一郎・山口飛鳥・福地里菜・大出晃弘・奥津なつみ・田淵優・池原研
習慣的意味仮設説による概念プラグマティズム擁護の試み
基于习惯意义假设来捍卫概念实用主义的尝试
- DOI:
- 发表时间:
2017 - 期刊:
- 影响因子:0
- 作者:
中島 祐人;稲永 俊介;坂内 英夫;竹田 正幸;加藤隆文;長谷川亮太・山口飛鳥・福地里菜・石川剛志・北村有迅;延寿 里美;加藤隆文;加藤隆文;山口飛鳥・新井和乃・池原研・金松敏也・福地里菜・中村恭之・宇佐美和子・奥津なつみ・清家弘治・芦寿一郎;加藤隆文;山口飛鳥・福地里菜・濱橋真理・清水真由子・江口大賀・金川久一;Takafumi Kato;加藤隆文 - 通讯作者:
加藤隆文
延岡衝上断層ボーリングコア中の断層帯の化学組成分布
延冈逆冲断层钻孔核心断层带化学成分分布
- DOI:
- 发表时间:
2016 - 期刊:
- 影响因子:0
- 作者:
中島 祐人;稲永 俊介;坂内 英夫;竹田 正幸;加藤隆文;長谷川亮太・山口飛鳥・福地里菜・石川剛志・北村有迅 - 通讯作者:
長谷川亮太・山口飛鳥・福地里菜・石川剛志・北村有迅
坂内 英夫的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('坂内 英夫', 18)}}的其他基金
辞書式圧縮と圧縮情報処理の深化
字典压缩与压缩信息处理的深化
- 批准号:
24K02899 - 财政年份:2024
- 资助金额:
$ 1.98万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
文字列の辞書式順序の組合せ論とその応用
字符串字典顺序组合学及其应用
- 批准号:
20H04141 - 财政年份:2020
- 资助金额:
$ 1.98万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
文字列属性を含む多属性データからのパターン発見アルゴリズムに関する研究
字符串属性等多属性数据的模式发现算法研究
- 批准号:
15700121 - 财政年份:2003
- 资助金额:
$ 1.98万 - 项目类别:
Grant-in-Aid for Young Scientists (B)
文字の分類とパターン探索アルゴリズムの研究
字符分类与模式搜索算法研究
- 批准号:
13780271 - 财政年份:2001
- 资助金额:
$ 1.98万 - 项目类别:
Grant-in-Aid for Young Scientists (B)
相似海外基金
Toward the integration of segment weight and sonority
致力于音段重量和响度的整合
- 批准号:
17K02832 - 财政年份:2017
- 资助金额:
$ 1.98万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Historical linguistic study of the bound forms containing initial voiced obstruents in the Japanese Language
日语中含声母浊音的装订形式的历史语言学研究
- 批准号:
26370531 - 财政年份:2014
- 资助金额:
$ 1.98万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Knowledge Discovery from Numbers in Text
从文本中的数字发现知识
- 批准号:
22700137 - 财政年份:2010
- 资助金额:
$ 1.98万 - 项目类别:
Grant-in-Aid for Young Scientists (B)
A Descriptive Study of Classhood and Accentuation of English Suffixes and an Analysis within Partial Ordering Theory
英语后缀类别和重读的描述性研究及偏序理论分析
- 批准号:
21520513 - 财政年份:2009
- 资助金额:
$ 1.98万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Development of Practical Succinct Data Structures with Application to Huge Data
开发适用于大数据的实用简洁数据结构
- 批准号:
19680001 - 财政年份:2007
- 资助金额:
$ 1.98万 - 项目类别:
Grant-in-Aid for Young Scientists (A)