Suffix Arrayを利用した全部分文字列による情報検索

使用后缀数组使用所有子字符串进行信息搜索

基本信息

  • 批准号:
    11780249
  • 负责人:
  • 金额:
    $ 1.6万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
  • 财政年份:
    1999
  • 资助国家:
    日本
  • 起止时间:
    1999 至 2000
  • 项目状态:
    已结题

项目摘要

昨年度は、ユーザによって入力された検索要求文のすべての部分文字列と、検索対象となる文書集合のすべての文字列をマッチングさせるシステムの構築・評価を行った。その結果、従来法からの精度向上を確認したが、さらなる精度向上と高速化が課題であることが明らかになった。今年度は、まず、全部分文字列を利用することによって性能が上がる理由、およびその限界を検討した結果以下のことが分かった。(1)品詞ごとの検索性能への寄与を調べたところ、従来法ではstop wordとして省かれる助詞や助動詞が以外に性能向上に寄与していることが分かった。これは、助詞等によって接続された複合語も1つの長い単語として扱う方がよいことを示している。(2)検索要求文の中では助詞で接続された長い複合語が、検索対象文献では助詞を省略した名詞連続で表現されている場合、昨年度提案した方法では長い複合語のままではマッチしないため、自動的に短い単語に分割されてしまう。その結果、検索精度が低下している。以上の2点より、部分的に異なってもできるだけ長い単語列でマッチングするシステムが性能・検索速度の面で有利であると考えた。これを反映させるために、マッチングの単位は単語であるが、マッチした単語が近傍に複数存在するときに類似度を上げるような検索システムを構築した。NTCIR-1の評価データを使って、条件を揃えて評価した結果、11pt平均適合率で、従来法が0.38、昨年度作成したシステムが0.40、今年度の提案システムが0.41の性能であり、精度面の向上を確認した。速度の面でも、昨年度より10倍程度の高速化を達成した。
去年,我们构建并评估了一个系统,该系统与用户输入的所有搜索请求语句的子字符串与正在搜索的文档集的所有字符串输入。结果,确认了传统方法的准确性的提高,但已经表明,准确性和加快速度的进一步提高是一个挑战。今年,我们首先研究了通过使用所有基因来提高性能的原因,以及这些结果的局限性,并发现了以下内容:(1)当我们研究语音每个部分对搜索性能的贡献时,发现粒子和辅助动词在常规方法中省略了作为停止词,从而有助于提高性能。这表明最好将通过粒子等连接的复合单词视为一个长词。 (2)在搜索请求句子中,如果通过粒子连接的长复合单词表示为搜索目标文献中的名词,则去年提出的方法是长的,如果它们是长复合词,并且它们会自动将其分为短词。结果,搜索精度降低了。基于上述两个点,我们认为,即使单词部分不同,它匹配最长的单词字符串,在性能和搜索速度方面也是有利的。为了反映这一点,构建了一个搜索系统,其中匹配单元是一个单词,但是当附近有多个匹配单词时,已经构建了一个搜索系统以提高相似程度。使用NTCIR-1评估数据,我们确认了11点平均兼容性率的性能,常规方法为0.38,去年创建的系统为0.40,今年拟议的系统为0.41,证实了准确性提高了。就速度而言,它的速度比去年快10倍。

项目成果

期刊论文数量(2)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Mikio Yamamoto: "Using Suffix Arrays to Compute Term Frequency and Document Frequency for All Substrings in a Corpus"Computational Linguistics. 27・1(to appear). (2001)
Mikio Yamamoto:“使用后缀数组计算语料库中所有子字符串的词频和文档频率”计算语言学 27・1(即将出版)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
Tomohiro Ozawa: "Japanese word segmentation using similarity measure for IR"Proceedings of the First NTCIR Workshop on Research in Japanese Text Retrieval and Term Recognition. 89-96 (1999)
Tomohiro Ozawa:“使用 IR 相似性度量的日语分词”第一届 NTCIR 日语文本检索和术语识别研究研讨会论文集。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

山本 幹雄其他文献

山本 幹雄的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('山本 幹雄', 18)}}的其他基金

単語ID最適化によるダブル配列言語モデルのサイズ縮小手法の開発
使用单词 ID 优化开发双数组语言模型的尺寸缩减方法
  • 批准号:
    22K12162
  • 财政年份:
    2022
  • 资助金额:
    $ 1.6万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
AICTを活用した合理的配慮の自動化・コモディティ化研究
利用 AICT 对合理便利的自动化和商品化进行研究
  • 批准号:
    20K03094
  • 财政年份:
    2020
  • 资助金额:
    $ 1.6万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
音声認識技術を活用した教育支援方法の研究
利用语音识别技术的教育支持方法研究
  • 批准号:
    18700648
  • 财政年份:
    2006
  • 资助金额:
    $ 1.6万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
文字レベルと単語レベルの確率モデルを融合した形態素解析システム
结合字符级和词级概率模型的词法分析系统
  • 批准号:
    09780309
  • 财政年份:
    1997
  • 资助金额:
    $ 1.6万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
タグなしコーパスからの形態素解析情報の抽出
从未标记的语料库中提取形态分析信息
  • 批准号:
    08780329
  • 财政年份:
    1996
  • 资助金额:
    $ 1.6万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
アメリカ帝国主義の研究―主としてその形成過程を中心に―
美帝国主义研究:主要关注其形成过程
  • 批准号:
    X42440-----12237
  • 财政年份:
    1967
  • 资助金额:
    $ 1.6万
  • 项目类别:
    Particular Research
欧米における国家思想の形成に関する総合的研究
欧美国家意识形态形成综合研究
  • 批准号:
    X41065------1202
  • 财政年份:
    1966
  • 资助金额:
    $ 1.6万
  • 项目类别:
    Grant-in-Aid for Co-operative Research

相似海外基金

Digging Deeper with AI: Canada-UK-US Partnership for Next-generation Plant Root Anatomy Segmentation
利用人工智能进行更深入的挖掘:加拿大、英国、美国合作开发下一代植物根部解剖分割
  • 批准号:
    BB/Y513908/1
  • 财政年份:
    2024
  • 资助金额:
    $ 1.6万
  • 项目类别:
    Research Grant
Early-Stage Clinical Trial of AI-Driven CBCT-Guided Adaptive Radiotherapy for Lung Cancer
AI驱动的CBCT引导的肺癌适应性放疗的早期临床试验
  • 批准号:
    10575081
  • 财政年份:
    2023
  • 资助金额:
    $ 1.6万
  • 项目类别:
A Connectomic Analysis of a Developing Brain Undergoing Neurogenesis
正在经历神经发生的发育中大脑的连接组学分析
  • 批准号:
    10719296
  • 财政年份:
    2023
  • 资助金额:
    $ 1.6万
  • 项目类别:
Ultra-precision clinical imaging and detection of Alzheimers Disease using deep learning
使用深度学习进行超精密临床成像和阿尔茨海默病检测
  • 批准号:
    10643456
  • 财政年份:
    2023
  • 资助金额:
    $ 1.6万
  • 项目类别:
Dynamical maintenance of left-right symmetry during vertebrate development
脊椎动物发育过程中左右对称的动态维持
  • 批准号:
    10797382
  • 财政年份:
    2023
  • 资助金额:
    $ 1.6万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了