タグなしコーパスからの形態素解析情報の抽出

从未标记的语料库中提取形态分析信息

基本信息

  • 批准号:
    08780329
  • 负责人:
  • 金额:
    $ 0.64万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
  • 财政年份:
    1996
  • 资助国家:
    日本
  • 起止时间:
    1996 至 无数据
  • 项目状态:
    已结题

项目摘要

本研究では、自然言語処理において最も基本的な形態素解析(文中の単語、品詞や活用型など同定する)に関する確率的なルールをタグなしのコーパスから学習する方法を検討した。大きく2つの手法を提案し、評価実験を行った。1つ目の手法は、本研究以前に既に提案されている1次マルコモデルを推定する方法と異なり、隠れマルコフモデルを推定する手法である。隠れマルコフモデルは2次マルコフモデルに近い性能を少ないパラメータで実現できるため、そのロバスト性において優れている。これまでの研究では実用的には1次マルコフモデルを推定できるのみであったが、より高性能なモデルをタグなしコーパスから推定することが可能となった。また、タグなしコーパスから確率モデルを推定する場合ノズルが大きな問題となるが、本研究では2つ目の提案として信頼性係数を導入し、ノイズによる影響の軽減を試みた。これは、タグなしコーパスから抽出された可能な単語連鎖に信頼性を付与することによって、信頼性の低い連鎖によるノイズを低減する手法である。以上2つの手法を実際の日本語形態素解析システムに応用し、評価を行った。この結果、信頼性係数はマルコフモデル、隠れマルコフモデルどちらのモデルに対してもタグなしコーパスから推定する場合に有効であることが分かった。また、信頼性係数を使わない状態で隠れマルコフモデルと1次マルコフモデルを比較した場合は、1次マルコフモデルの方が性能が高かった。しかし、信頼性係数が使われてある程度ノイズが押えられるとこの関係は逆転した。これは、隠れマルコフモデルは1次マルコフモデルよりもパラメータ数が多く精密なモデルであるため、ノイズに弱いためであると考えられる。
在这项研究中,我们研究了如何从没有标签的COD中学习自然语言处理(句子,语音和利用类型中的单词)的最基本形式分析的随机规则。我们提出了两种主要方法,并进行了评估实验。第一种方法是估计隐藏的Marcov模型的方法,这与估计本研究之前已经提出的主要MARCO模型的方法不同。隐藏的Marcov模型的钝度非常出色,因为它可以实现与低参数的次级Marcov模型接近的性能。到目前为止,在实践研究中,只有可以估算主要的Marcov模型,但可以估算COPU的较高性能模型而不标记。另外,当从无标签语料库中估算概率模型时,喷嘴是一个主要问题,但是在这项研究中,将可靠性系数作为第二个提案引入,我们试图减少噪声的影响。这是一种通过可靠性从无标签涂层提取的可能的单词链来可靠性来降低噪音的方法。以上两种方法应用于实际的日本形态分析系统并进行了评估。结果,发现可靠的系数在从Capus估算的无标签和隐藏的Marcov模型的情况下是有效的。此外,当将隐藏的Marcov模型与主要Marcov模型进行比较而无需使用可靠性系数时,主要的Marcov模型是更大的性能。但是,当使用可靠系数并在某种程度上保持噪声时,这种关系被逆转。这可能是因为隐藏的Marcov模型容易受到噪声的影响,因为参数的数量大于主Marcov模型。

项目成果

期刊论文数量(1)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Mikio Yamamoto: "A re-estimation method for stochastic language modeling from ambiguous observations" Proceedings of the Fourth Workshop on Very Large Corpora. 155-167 (1996)
Mikio Yamamoto:“根据模糊观察进行随机语言建模的重新估计方法”第四届超大型语料库研讨会论文集。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

山本 幹雄其他文献

山本 幹雄的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('山本 幹雄', 18)}}的其他基金

単語ID最適化によるダブル配列言語モデルのサイズ縮小手法の開発
使用单词 ID 优化开发双数组语言模型的尺寸缩减方法
  • 批准号:
    22K12162
  • 财政年份:
    2022
  • 资助金额:
    $ 0.64万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
AICTを活用した合理的配慮の自動化・コモディティ化研究
利用 AICT 对合理便利的自动化和商品化进行研究
  • 批准号:
    20K03094
  • 财政年份:
    2020
  • 资助金额:
    $ 0.64万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
音声認識技術を活用した教育支援方法の研究
利用语音识别技术的教育支持方法研究
  • 批准号:
    18700648
  • 财政年份:
    2006
  • 资助金额:
    $ 0.64万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
Suffix Arrayを利用した全部分文字列による情報検索
使用后缀数组使用所有子字符串进行信息搜索
  • 批准号:
    11780249
  • 财政年份:
    1999
  • 资助金额:
    $ 0.64万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
文字レベルと単語レベルの確率モデルを融合した形態素解析システム
结合字符级和词级概率模型的词法分析系统
  • 批准号:
    09780309
  • 财政年份:
    1997
  • 资助金额:
    $ 0.64万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
アメリカ帝国主義の研究―主としてその形成過程を中心に―
美帝国主义研究:主要关注其形成过程
  • 批准号:
    X42440-----12237
  • 财政年份:
    1967
  • 资助金额:
    $ 0.64万
  • 项目类别:
    Particular Research
欧米における国家思想の形成に関する総合的研究
欧美国家意识形态形成综合研究
  • 批准号:
    X41065------1202
  • 财政年份:
    1966
  • 资助金额:
    $ 0.64万
  • 项目类别:
    Grant-in-Aid for Co-operative Research

相似海外基金

Construction of a large word database with accent information
构建带有口音信息的大型单词数据库
  • 批准号:
    19K13173
  • 财政年份:
    2019
  • 资助金额:
    $ 0.64万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
Clarifying the effects of topics on vocabulary, grammar, and discourse strategies
阐明主题对词汇、语法和话语策略的影响
  • 批准号:
    18H00676
  • 财政年份:
    2018
  • 资助金额:
    $ 0.64万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Elicitation of Additional Requirements from Existing Development Artifacts by Natural Language Processing
通过自然语言处理从现有开发工件中引出额外要求
  • 批准号:
    17K00116
  • 财政年份:
    2017
  • 资助金额:
    $ 0.64万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Research of text revised edition and interpretation using corpus
语料库文本修订与解释研究
  • 批准号:
    16K02387
  • 财政年份:
    2016
  • 资助金额:
    $ 0.64万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Refinement and utilization of the Corpus of Historical Japanese through multilayered extension
历史日语语料库的多层次延伸提炼与利用
  • 批准号:
    15H01883
  • 财政年份:
    2015
  • 资助金额:
    $ 0.64万
  • 项目类别:
    Grant-in-Aid for Scientific Research (A)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了