大規模なコーパスを用いた機械学習による名詞句の項構造解析

使用大规模语料库使用机器学习对名词短语进行术语结构分析

基本信息

  • 批准号:
    08J09545
  • 负责人:
  • 金额:
    $ 0.64万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
  • 财政年份:
    2008
  • 资助国家:
    日本
  • 起止时间:
    2008 至 2009
  • 项目状态:
    已结题

项目摘要

本年度は、本研究のベースとなった事態性名詞の述語項構造解析の研究に関して、構文パターンと既存の項構造解析モデルを組み合わせた手法をまとめた論文が出版された。しかしながら、年次計画1年目の後半に予定していた大規模なコーパスからリソースを自動構築する研究が理論面においても実践面においても発展を見せ、研究計画を変更したために、本研究の2年度目に予定していた名詞句の自動項構造解析は実施しなかった。以下では研究計画を変更したあとの研究について述べる。本年度の研究上の貢献は2つある。1つ目は、1年度目においてグラフ理論に基づく自然言語処理における半教師あり手法(ブートストラッピング)について行った研究をまとめ、発表したことである。グラフ理論的観点からブートストラッピングを解析した研究はこれまでになく、ブートストラッピングに内在する問題点を理論的に明らかにした一方、リンク解析で用いられている手法を自然言語処理にも適用し、語義曖昧性解消のタスクで高い性能が得られることを示した。さまざまなヒューリスティックを用いるブートストラッピングと比較して、使用時に決めなければならない変数の数が少ないため、扱いが容易であることも提案手法の利点の一つである。2つ目は、ヤフー研究所との共同研究により、検索クリックスルーログをコーパスとした意味カテゴリ辞書の自動構築の研究を行い、検索クリックスルーログが意味カテゴリの獲得に有用な情報抽出源であることを示した。また、日本最大規模のウェブデータを対象として、並列分散環境でも実行できるようなスケーラブルなアルゴリズムを提案し、有効性を示した。また、本年度は年次計画で予定していた統計的機械翻訳への応用に替え、3ヶ月アメリカ合衆国Apple Inc.に渡航し、統計的自然言語処理(統計的かな漢字変換)に関する研究を行った。
今年,针对作为本研究基础的情境名词的谓语论元结构分析研究,发表了一篇论文,总结了一种将句法模式与现有论元结构分析模型相结合的方法。然而,原计划在年度计划第一年下半年进行的大规模语料库自动构建资源的研究,在理论和实践上均已取得进展,研究计划不得不改变。未对本财政年度计划的名词短语进行术语结构分析。下面介绍一下改变研究计划后的研究情况。今年有两项研究贡献。首先是对第一年基于图论的自然语言处理半监督方法(bootstrapping)的研究进行总结和展示。从来没有任何研究从图论的角度分析引导,虽然我们从理论上阐明了引导固有的问题,但我们也将链接分析中使用的方法应用到自然语言处理中,我们证明了高性能是可以实现的。在语义消歧任务中获得。与使用各种启发式的引导法相比,所提出的方法的优点之一是它更容易处理,因为在使用过程中必须确定的变量数量更少。其次,通过与雅虎研究院的联合研究,我们进行了以搜索点击日志为语料库自动构建语义类别词典的研究,发现搜索点击日志是获取语义的有用信息提取源。结果表明。此外,我们提出了一种可在并行分布式环境中执行的可扩展算法,并证明了其对日本最大的网络数据集的有效性。另外,今年我没有将年度计划中计划的应用应用于统计机器翻译,而是去了美国苹果公司三个月,进行了统计自然语言处理(统计假名汉字转换)的研究。 。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
ChaIME:大規模コーパスを用いた統計的かな漢字変換
ChaIME:使用大规模语料库统计假名-汉字转换
  • DOI:
  • 发表时间:
    2008
  • 期刊:
  • 影响因子:
    0
  • 作者:
    小町守;森信介;徳永拓之
  • 通讯作者:
    徳永拓之
あいまいな日本語のかな漢字変換
不明确的日语假名汉字转换
  • DOI:
  • 发表时间:
    2008
  • 期刊:
  • 影响因子:
    0
  • 作者:
    小町守;森信介;徳永拓之
  • 通讯作者:
    徳永拓之
名詞句の語彙統語パターンを用いた事態性名詞の項構造解析
使用名词短语的词汇句法模式对情境名词进行项目结构分析
  • DOI:
  • 发表时间:
    2010
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Akihiro Tsukamoto;Ryoko Matsuba;Chinatsu Ishizaki;佐々見武志;小町守・飯田龍・乾健太郎・松本裕治
  • 通讯作者:
    小町守・飯田龍・乾健太郎・松本裕治
NAIST-NTT System Description for Patent Translation Task at NTCIR-7
  • DOI:
  • 发表时间:
    2008
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Mamoru Komachi;M. Nagata;Yuji Matsumoto
  • 通讯作者:
    Mamoru Komachi;M. Nagata;Yuji Matsumoto
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

小町 守其他文献

Mutual <I>k</I>-Nearest Neighbor Graph Construction in Graph-based Semi-Supervised Classification
基于图的半监督分类中的互<I>k</I>-最近邻图构建
確信度に基づく退院時サマリの分析
基于置信水平的出院总结分析
  • DOI:
  • 发表时间:
    2019
  • 期刊:
  • 影响因子:
    0
  • 作者:
    安道 健一郎;奥村 貴史;小町 守;松本 裕治
  • 通讯作者:
    松本 裕治
事前学習モデルを用いた近代文語文のニューラル機械翻訳
使用预训练模型对现代文学文本进行神经机器翻译
  • DOI:
    10.20729/00216233
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    喜友名 朝視顕;平澤 寅庄;小町 守;小木曽 智信
  • 通讯作者:
    小木曽 智信
Generation of Diverse Corrected Sentences Considering the Degree of Correction
考虑纠正程度的多样化纠正句子的生成
  • DOI:
    10.5715/jnlp.28.428
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    甫立 健悟;金子 正弘;勝又 智;小町 守
  • 通讯作者:
    小町 守
歴史的日本語資料を対象とした形態素解析
日本历史资料的形态分析
  • DOI:
  • 发表时间:
    2013
  • 期刊:
  • 影响因子:
    0
  • 作者:
    小木曽 智信;小町 守;松本 裕治
  • 通讯作者:
    松本 裕治

小町 守的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('小町 守', 18)}}的其他基金

深層学習による言語生成の評価データセットの構築と品質推定
使用深度学习构建评估数据集和语言生成质量评估
  • 批准号:
    23K24907
  • 财政年份:
    2024
  • 资助金额:
    $ 0.64万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Construction of an Evaluation Dataset and Quality Estimation for Neural Language Generation
神经语言生成评估数据集的构建和质量评估
  • 批准号:
    22H03651
  • 财政年份:
    2022
  • 资助金额:
    $ 0.64万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
言語学習者の誤用に注目した単語と文の分散表現の獲得と分析
获取和分析单词和句子的分布式表示,重点关注语言学习者的误用
  • 批准号:
    19KK0286
  • 财政年份:
    2020
  • 资助金额:
    $ 0.64万
  • 项目类别:
    Fund for the Promotion of Joint International Research (Fostering Joint International Research (A))

相似海外基金

The development of diagnostic tool for autism spectrum disorder by AI construction
AI构建自闭症谱系障碍诊断工具开发
  • 批准号:
    21K18365
  • 财政年份:
    2021
  • 资助金额:
    $ 0.64万
  • 项目类别:
    Grant-in-Aid for Challenging Research (Exploratory)
The Construction of an Algorithm for Linguistic Behavior of Autism Spectrum Disorder
自闭症谱系障碍语言行为算法的构建
  • 批准号:
    19H01258
  • 财政年份:
    2019
  • 资助金额:
    $ 0.64万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Constructing of language training protocol and training monitor database for children with autism spectrum disorder
自闭症谱系障碍儿童语言训练方案及训练监测数据库的构建
  • 批准号:
    17K18487
  • 财政年份:
    2017
  • 资助金额:
    $ 0.64万
  • 项目类别:
    Grant-in-Aid for Challenging Research (Exploratory)
A Study on Automated Writing/Speech Feedback
自动写作/语音反馈的研究
  • 批准号:
    17K13511
  • 财政年份:
    2017
  • 资助金额:
    $ 0.64万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
Real-time multimodal emotion recognition system that estimates emotional dynamics
估计情绪动态的实时多模态情绪识别系统
  • 批准号:
    17K00160
  • 财政年份:
    2017
  • 资助金额:
    $ 0.64万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了