Development of a Hybrid CG Parser

混合 CG 解析器的开发

基本信息

项目摘要

本研究は、「統語変換」の概念に基づく理論言語学での研究の知見を活かして、自然言語処理研究において開発されたパーザ (具体的にはCCGパーザ) の性能を向上させることを目指すことを目的とするものである。この目的のために、CCGパーザにとって足りない情報を補うための機械学習のコンポーネントが必要となる。今年度は、昨年度作成したこのコンポーネントのための正解ラベルセットのアノテーション・データを用いて、機械学習によって未知のデータに対して正しくラベル付与ができるかを検証した。具体的には、BCCWJから抽出した例文に必要な情報を手でアノテーションしたアノテーション・データを正解セットと評価セットに分割し、固有名認識のモデルと同構成の機械学習モデル (東北大から提供されている日本語BERTモデルをfine-tuningしたもの) を用いて比較文の意味に関わる情報のラベル (比較句、対応する程度述語、比較対象の表現の三者) を予測する実験を行った。結果は言語処理学会の年次大会の論文で報告した。比較的単純な手法で、モデルが未知の文に対して目的とするアノテーション情報を実際に機械学習である程度正確に当てることができることを確認できた。この成果に基づいて、最終年度である来年度は、未知のデータを統語解析し、意味情報ラベルを予測する機械学習モデルの出力と組み合わせて論理式を出力するパイプラインを実際に構築することを目指す。
本研究旨在利用基于“句法转换”概念的理论语言学研究知识来提高自然语言处理研究中开发的解析器(特别是CCG解析器)的性能。为此,需要一个机器学习组件来填充 CCG 解析器缺失的信息。今年,我们使用去年创建的该组件的正确标签集的注释数据来验证机器学习是否可以正确地标记未知数据。具体来说,将从BCCWJ中提取的例句手动标注必要信息的标注数据分为正确答案集和评估集,以及与正确答案具有相同配置的机器学习模型(由东北大学提供)。我们使用日本的BERT模型(该模型的微调版本)进行了实验,预测与比较句子的含义相关的信息标签(比较短语、对应程度谓语和比较目标的表达方式)。日本 BERT 模型)。研究结果发表在语言处理协会年会上的一篇论文中。使用相对简单的方法,我们能够使用机器学习确认该模型实际上可以将目标注释信息以一定程度的准确性应用于未知句子。基于这些结果,在明年,也就是最后一年,我们的目标是真正建立一个管道,对未知数据进行语法分析,并通过将其与预测语义信息标签的机器学习模型的输出相结合来输出逻辑公式。

项目成果

期刊论文数量(4)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
比較文の意味解析のための「深い」係り受け関係の解析
比较句语义分析的“深层”依存关系分析
  • DOI:
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    窪田悠介; 林則序; 天本貴之; 峯島宏次
  • 通讯作者:
    峯島宏次
Toward 'parasitic scope' parsing: A case study on comparatives in Japanese
走向“寄生范围”解析:日语比较级的案例研究
  • DOI:
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Yusuke Kubota
  • 通讯作者:
    Yusuke Kubota
対照言語学の観点から見た日本語の計算言語学
对比语言学视角下的日本计算语言学
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    窪田悠介
  • 通讯作者:
    窪田悠介
比較文の意味解析のための「深い」係り受け関係の解析
比较句语义分析的“深层”依存关系分析
  • DOI:
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    窪田悠介; 林則序; 天本貴之; 峯島宏次
  • 通讯作者:
    峯島宏次
Toward 'parasitic scope' parsing: A case study on comparatives in Japanese
走向“寄生范围”句法分析:日语比较级的案例研究
  • DOI:
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Yusuke Kubota
  • 通讯作者:
    Yusuke Kubota
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

窪田 悠介其他文献

言語研究の楽しさと楽しみ
语言研究的乐趣和享受
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    岡部 玲子;矢島 純;窪田 悠介;磯野 達也
  • 通讯作者:
    磯野 達也
言語研究の楽しさと楽しみ
语言研究的乐趣和享受
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    岡部 玲子;矢島 純;窪田 悠介;磯野 達也
  • 通讯作者:
    磯野 達也
言語研究の楽しさと楽しみ
语言研究的乐趣和享受
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    岡部 玲子;矢島 純;窪田 悠介;磯野 達也
  • 通讯作者:
    磯野 達也
言語研究の楽しさと楽しみ
语言研究的乐趣和享受
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    岡部 玲子;矢島 純;窪田 悠介;磯野 達也
  • 通讯作者:
    磯野 達也
言語研究の楽しさと楽しみ
语言研究的乐趣和享受
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    岡部 玲子;矢島 純;窪田 悠介;磯野 達也;中谷健太郎;井川詩織;島村礼子;田川拓海;林 弘美;渡部直也;于 一楽;小野尚之;加藤恒昭;杉岡洋子;曹 瑞;高橋亮介;外崎淑子;畠山真一;藤巻一真;前田宏太郎;由本陽子;李 慧;上野義雄;漆原朗子;岸本秀樹;ほか
  • 通讯作者:
    ほか

窪田 悠介的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('窪田 悠介', 18)}}的其他基金

論理文法における日本語尺度表現の構成的意味論の構築
逻辑语法中日语音阶表达的组合语义构建
  • 批准号:
    10J02912
  • 财政年份:
    2010
  • 资助金额:
    $ 2.75万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows

相似海外基金

Digital Delivery of Evidence-Based Mental Health Content and Mentoring to Adolescents
以数字方式向青少年提供循证心理健康内容和指导
  • 批准号:
    10758731
  • 财政年份:
    2023
  • 资助金额:
    $ 2.75万
  • 项目类别:
DPCデータと看護必要度を統合した次世代AIシステムによる看護支援手法の評価
使用集成DPC数据和护理必要性水平的下一代AI系统评估护理支持方法
  • 批准号:
    22K09183
  • 财政年份:
    2022
  • 资助金额:
    $ 2.75万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
A Binary Analysis Framework for Instrumenting and Controlling Concurrent Behaviors of Microarchitectures
用于检测和控制微架构并发行为的二进制分析框架
  • 批准号:
    22K11968
  • 财政年份:
    2022
  • 资助金额:
    $ 2.75万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
構文論に基づく自然言語推論システムの開発
基于句法理论的自然语言推理系统开发
  • 批准号:
    22K12148
  • 财政年份:
    2022
  • 资助金额:
    $ 2.75万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
指示なしで嚥下機能を解析する~舌骨上筋群のかたさは何を意味するのか~
无说明书分析吞咽功能~舌骨上肌群僵硬是什么意思?
  • 批准号:
    21K10264
  • 财政年份:
    2021
  • 资助金额:
    $ 2.75万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了