Suffix Arrayを利用した全部分文字列による情報検索

使用后缀数组使用所有子字符串进行信息搜索

基本信息

  • 批准号:
    11780249
  • 负责人:
  • 金额:
    $ 1.6万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
  • 财政年份:
    1999
  • 资助国家:
    日本
  • 起止时间:
    1999 至 2000
  • 项目状态:
    已结题

项目摘要

昨年度は、ユーザによって入力された検索要求文のすべての部分文字列と、検索対象となる文書集合のすべての文字列をマッチングさせるシステムの構築・評価を行った。その結果、従来法からの精度向上を確認したが、さらなる精度向上と高速化が課題であることが明らかになった。今年度は、まず、全部分文字列を利用することによって性能が上がる理由、およびその限界を検討した結果以下のことが分かった。(1)品詞ごとの検索性能への寄与を調べたところ、従来法ではstop wordとして省かれる助詞や助動詞が以外に性能向上に寄与していることが分かった。これは、助詞等によって接続された複合語も1つの長い単語として扱う方がよいことを示している。(2)検索要求文の中では助詞で接続された長い複合語が、検索対象文献では助詞を省略した名詞連続で表現されている場合、昨年度提案した方法では長い複合語のままではマッチしないため、自動的に短い単語に分割されてしまう。その結果、検索精度が低下している。以上の2点より、部分的に異なってもできるだけ長い単語列でマッチングするシステムが性能・検索速度の面で有利であると考えた。これを反映させるために、マッチングの単位は単語であるが、マッチした単語が近傍に複数存在するときに類似度を上げるような検索システムを構築した。NTCIR-1の評価データを使って、条件を揃えて評価した結果、11pt平均適合率で、従来法が0.38、昨年度作成したシステムが0.40、今年度の提案システムが0.41の性能であり、精度面の向上を確認した。速度の面でも、昨年度より10倍程度の高速化を達成した。
去年,我们构建并评估了一个系统,该系统将用户输入的搜索请求句子的所有子字符串与要搜索的文档集的所有字符串进行匹配。结果证实,与传统方法相比,精度得到了提高,但很明显,进一步提高精度和加速仍然是问题。今年,我们首先调查了使用所有子串提高性能的原因及其局限性,并发现了以下内容。 (1)当我们调查每个词性对检索性能的贡献时,我们发现在传统方法中作为停用词被省略的助词和助动词也有助于性能的提高。这表明,最好将由助词等连接的复合词视为一个长词。 (2)如果将搜索请求语句中由助词连接的长复合词表示为搜索目标文档中省略助词的一系列名词,则去年提出的方法将无法按原样匹配该长复合词。 ,它会自动分割成较短的单词。结果,搜索准确性下降了。基于以上两点,我们认为,即使单词串部分不同,也尽可能长时间匹配单词串的系统在性能和搜索速度方面将具有优势。为了反映这一点,我们构建了一个搜索系统,该系统使用单词作为匹配单位,但当附近存在多个匹配单词时会增加相似度。使用NTCIR-1的评估数据评估条件的结果是,传统方法的性能为0.38,去年创建的系统为0.40,今年提出的系统为0.41,平均精度为11pt。的改进从速度上来说,我们实现了比去年大约10倍的提升。

项目成果

期刊论文数量(2)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Mikio Yamamoto: "Using Suffix Arrays to Compute Term Frequency and Document Frequency for All Substrings in a Corpus"Computational Linguistics. 27・1(to appear). (2001)
Mikio Yamamoto:“使用后缀数组计算语料库中所有子字符串的词频和文档频率”计算语言学 27・1(即将出版)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
Tomohiro Ozawa: "Japanese word segmentation using similarity measure for IR"Proceedings of the First NTCIR Workshop on Research in Japanese Text Retrieval and Term Recognition. 89-96 (1999)
Tomohiro Ozawa:“使用 IR 相似性度量的日语分词”第一届 NTCIR 日语文本检索和术语识别研究研讨会论文集。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

山本 幹雄其他文献

山本 幹雄的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('山本 幹雄', 18)}}的其他基金

単語ID最適化によるダブル配列言語モデルのサイズ縮小手法の開発
使用单词 ID 优化开发双数组语言模型的尺寸缩减方法
  • 批准号:
    22K12162
  • 财政年份:
    2022
  • 资助金额:
    $ 1.6万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
AICTを活用した合理的配慮の自動化・コモディティ化研究
利用 AICT 对合理便利的自动化和商品化进行研究
  • 批准号:
    20K03094
  • 财政年份:
    2020
  • 资助金额:
    $ 1.6万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
音声認識技術を活用した教育支援方法の研究
利用语音识别技术的教育支持方法研究
  • 批准号:
    18700648
  • 财政年份:
    2006
  • 资助金额:
    $ 1.6万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
文字レベルと単語レベルの確率モデルを融合した形態素解析システム
结合字符级和词级概率模型的词法分析系统
  • 批准号:
    09780309
  • 财政年份:
    1997
  • 资助金额:
    $ 1.6万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
タグなしコーパスからの形態素解析情報の抽出
从未标记的语料库中提取形态分析信息
  • 批准号:
    08780329
  • 财政年份:
    1996
  • 资助金额:
    $ 1.6万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
アメリカ帝国主義の研究―主としてその形成過程を中心に―
美帝国主义研究:主要关注其形成过程
  • 批准号:
    X42440-----12237
  • 财政年份:
    1967
  • 资助金额:
    $ 1.6万
  • 项目类别:
    Particular Research
欧米における国家思想の形成に関する総合的研究
欧美国家意识形态形成综合研究
  • 批准号:
    X41065------1202
  • 财政年份:
    1966
  • 资助金额:
    $ 1.6万
  • 项目类别:
    Grant-in-Aid for Co-operative Research

相似国自然基金

基于Split-GFP技术的生血内皮精确标记和内皮-造血转换机制研究
  • 批准号:
    32301261
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
内含肽介导的split-Cas9系统在大麦条纹花叶病毒介导的基因组编辑技术中的应用研究
  • 批准号:
    32370431
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目
基于“Split”型时钟交织型的高速宽带模数转换器研究
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
基于Split-GFP技术的幽门螺杆菌IV型分泌系统效应蛋白鉴定及转运识别机制研究
  • 批准号:
    81501718
  • 批准年份:
    2015
  • 资助金额:
    18.0 万元
  • 项目类别:
    青年科学基金项目
基于Split Bregman方法的全局凸快速图像分割模型的研究
  • 批准号:
    61301208
  • 批准年份:
    2013
  • 资助金额:
    25.0 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

Integrating Federated Split Neural Network with Artificial Stereoscopic Compound Eyes for Optical Flow Sensing in 3D Space with Precision
将联合分裂神经网络与人工立体复眼相结合,实现 3D 空间中的精确光流传感
  • 批准号:
    2332060
  • 财政年份:
    2024
  • 资助金额:
    $ 1.6万
  • 项目类别:
    Standard Grant
Cryogen Free Split Pair Magnet Cryostat with Optical Access and Automated Sample Rotation
具有光学接入和自动样品旋转功能的无制冷剂分裂对磁体低温恒温器
  • 批准号:
    531527874
  • 财政年份:
    2024
  • 资助金额:
    $ 1.6万
  • 项目类别:
    Major Research Instrumentation
Maoin America's patio trasero: Sino-Latin American relations from the Soviet split to the American rapprochement
毛因美国的庭院特拉塞罗:中拉关系从苏联分裂到美国和解
  • 批准号:
    2887615
  • 财政年份:
    2023
  • 资助金额:
    $ 1.6万
  • 项目类别:
    Studentship
Orthogonal split luciferases for imaging multiplexed cellular behaviors
用于多重细胞行为成像的正交分裂荧光素酶
  • 批准号:
    10730660
  • 财政年份:
    2023
  • 资助金额:
    $ 1.6万
  • 项目类别:
Split蛍光タンパク質を利用した蛍光強度変調法に基づく多細胞識別技術の開発
基于使用分裂荧光蛋白的荧光强度调制方法的多细胞识别技术的开发
  • 批准号:
    22KJ1998
  • 财政年份:
    2023
  • 资助金额:
    $ 1.6万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了