文字レベルと単語レベルの確率モデルを融合した形態素解析システム

结合字符级和词级概率模型的词法分析系统

基本信息

  • 批准号:
    09780309
  • 负责人:
  • 金额:
    $ 1.34万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
  • 财政年份:
    1997
  • 资助国家:
    日本
  • 起止时间:
    1997 至 1998
  • 项目状态:
    已结题

项目摘要

本年度(H10年度)の前半は、昨年度(H9年度)提案した文字レベルのモデルを用いた単語分割法(文字クラスタリング)、および単語レベルのモデルを用いた品詞付与手法(HMMの改良)を組合わせる研究を行った。1つ目の組合わせは、文字レベルのモデルで文の単語分割を決定し、その後、単語レベルのモデルで品詞を付与する手法である。2つ目は、文字レベルでの単語分割を一つに決定せず、単語候補のラティスを中間段階で生成し、その中から単語(の品詞)レベルのモデルで単語分割・品詞列を決定する手法である。評価実験の結果、文字レベルで単語分割を決定する手法(1つ目)が優れていることが明らかになった。これは、文字レベルのモデルが単語の字面の情報まで使うのに比べ、単語レベルのモデルが品詞のみの情報しか用いないため、単語の分割に関して誤った解を出す傾向か強かったためである。2つ目の融合手法を改良するためには、単語レベルのモデルにも字面情報を導入するべきと考えられるが、字面情報を使うと未知語に対する頑健性が弱くなることが予想される。本年度の後半では、これを解決するためのアプローチとして(間接的にはなるが)、文字レベルの統計情報を使った自動的な辞書項目の拡張を検討した。手法としては、情報検索で使われている類似度のメジャーを任意の部分文字列に適用した単語抽出法を提案し、未知語となりやすい固有名詞等の単語(情報検索におけるキーワード)を検出できることを示した。これは、文字レベルの統計情報を用いているため、間接的ではあるが、文字レベルのモデルと単語レベルのモデルを融合する方法の一つのアプローチとなっている。今後は、この情報を動的に取り入れる形態素解析システムを検討ずる。
在今年的上半年(FY H10)中,使用了去年提出的字符 - 级模型(H99)的单词split方法(字符群集),以及使用单词级别模型(HMM改进)(hmm改进)嗯,我进行了研究。第一个组合是一种方法,其中句子的单词拆分由字符级别模型确定,然后给出单词级模型的一部分。第二个是字符级别的单词分开并未在一个中确定,但是在中间阶段生成了候选latis一词,并且单词split和单词的一部分由单词(语音的一部分)确定。这是一种方法。作为评估实验的结果,很明显,在字符级别确定单词拆分单词的方法(第一个)方法非常好。这是因为与“表面”一词​​的措辞相比,单词级别模型仅使用仅语音信息的数量,因此它倾向于对单词的划分做出不正确的解决方案。为了改善第二种融合方法,人们认为应该将字符信息引入单词级别的模型,但是可以预期,字符信息的使用将削弱未知语言。在今年下半年,我们使用字符级别的统计信息来研究自动词典的扩展,作为解决此问题的方法(间接)。作为一种方法,可以提出一种单词提取方法,该方法将用于信息搜索的主要相似性应用于任何部分字符串,并检测可能未知的单词(信息搜索中的关键字)。这是融合字符级别模型和单词级模型的一种方法,尽管它们使用了字符级别的统计信息,但这是间接的。将来,我们将考虑一种动态包含此信息的形态分析系统。

项目成果

期刊论文数量(2)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Shuichi ITAHASHI: "Several measures for selecting suitable speech corpora" Eurospeech '97 Proceedings. Vol.4. 1751-1754 (1997)
Shuichi ITAHASHI:“选择合适语音语料库的几种措施”Eurospeech 97 Proceedings。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
Mikio Yamamoto: "Using suffix arrays to compute term frequency and document frequency for all substrings in a corpus" proceedings of the 6th Workshop on Very Large Corpora. 28-37 (1998)
Mikio Yamamoto:“使用后缀数组计算语料库中所有子字符串的术语频率和文档频率”第六届超大型语料库研讨会的会议记录。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

山本 幹雄其他文献

山本 幹雄的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('山本 幹雄', 18)}}的其他基金

単語ID最適化によるダブル配列言語モデルのサイズ縮小手法の開発
使用单词 ID 优化开发双数组语言模型的尺寸缩减方法
  • 批准号:
    22K12162
  • 财政年份:
    2022
  • 资助金额:
    $ 1.34万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
AICTを活用した合理的配慮の自動化・コモディティ化研究
利用 AICT 对合理便利的自动化和商品化进行研究
  • 批准号:
    20K03094
  • 财政年份:
    2020
  • 资助金额:
    $ 1.34万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
音声認識技術を活用した教育支援方法の研究
利用语音识别技术的教育支持方法研究
  • 批准号:
    18700648
  • 财政年份:
    2006
  • 资助金额:
    $ 1.34万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
Suffix Arrayを利用した全部分文字列による情報検索
使用后缀数组使用所有子字符串进行信息搜索
  • 批准号:
    11780249
  • 财政年份:
    1999
  • 资助金额:
    $ 1.34万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
タグなしコーパスからの形態素解析情報の抽出
从未标记的语料库中提取形态分析信息
  • 批准号:
    08780329
  • 财政年份:
    1996
  • 资助金额:
    $ 1.34万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
アメリカ帝国主義の研究―主としてその形成過程を中心に―
美帝国主义研究:主要关注其形成过程
  • 批准号:
    X42440-----12237
  • 财政年份:
    1967
  • 资助金额:
    $ 1.34万
  • 项目类别:
    Particular Research
欧米における国家思想の形成に関する総合的研究
欧美国家意识形态形成综合研究
  • 批准号:
    X41065------1202
  • 财政年份:
    1966
  • 资助金额:
    $ 1.34万
  • 项目类别:
    Grant-in-Aid for Co-operative Research

相似海外基金

統計モデルに基づく大規模テキストへの言語情報付与及びテキストからの言語知識獲得
为大规模文本添加语言信息,基于统计模型从文本中获取语言知识
  • 批准号:
    09780338
  • 财政年份:
    1997
  • 资助金额:
    $ 1.34万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
タグなしコーパスからの形態素解析情報の抽出
从未标记的语料库中提取形态分析信息
  • 批准号:
    08780329
  • 财政年份:
    1996
  • 资助金额:
    $ 1.34万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了