Development of a Hybrid CG Parser
混合 CG 解析器的开发
基本信息
- 批准号:21K00541
- 负责人:
- 金额:$ 2.75万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Scientific Research (C)
- 财政年份:2021
- 资助国家:日本
- 起止时间:2021-04-01 至 2024-03-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
本研究は、「統語変換」の概念に基づく理論言語学での研究の知見を活かして、自然言語処理研究において開発されたパーザ (具体的にはCCGパーザ) の性能を向上させることを目指すことを目的とするものである。この目的のために、CCGパーザにとって足りない情報を補うための機械学習のコンポーネントが必要となる。今年度は、昨年度作成したこのコンポーネントのための正解ラベルセットのアノテーション・データを用いて、機械学習によって未知のデータに対して正しくラベル付与ができるかを検証した。具体的には、BCCWJから抽出した例文に必要な情報を手でアノテーションしたアノテーション・データを正解セットと評価セットに分割し、固有名認識のモデルと同構成の機械学習モデル (東北大から提供されている日本語BERTモデルをfine-tuningしたもの) を用いて比較文の意味に関わる情報のラベル (比較句、対応する程度述語、比較対象の表現の三者) を予測する実験を行った。結果は言語処理学会の年次大会の論文で報告した。比較的単純な手法で、モデルが未知の文に対して目的とするアノテーション情報を実際に機械学習である程度正確に当てることができることを確認できた。この成果に基づいて、最終年度である来年度は、未知のデータを統語解析し、意味情報ラベルを予測する機械学習モデルの出力と組み合わせて論理式を出力するパイプラインを実際に構築することを目指す。
本研究旨在利用基于“句法转换”概念的理论语言学研究知识来提高自然语言处理研究中开发的解析器(特别是CCG解析器)的性能。为此,需要一个机器学习组件来填充 CCG 解析器缺失的信息。今年,我们使用去年创建的该组件的正确标签集的注释数据来验证机器学习是否可以正确地标记未知数据。具体来说,我们将注释数据(其中必要的信息手动注释在从 BCCWJ 中提取的例句上)划分为正确答案集和评估集,并创建了与正确答案具有相同结构的机器学习模型(由东北大学提供)。我们进行了一项实验,使用日本 BERT 模型(日本 BERT 的微调版本)来预测与比较句子的含义相关的信息标签(比较短语、对应程度谓词和比较目标的表达)。模型)。研究结果发表在语言处理协会年会上的一篇论文中。使用相对简单的方法,我们能够使用机器学习确认该模型实际上可以将目标注释信息以一定程度的准确性应用于未知句子。基于这些结果,在明年,也就是最后一年,我们的目标是真正构建一个管道,对未知数据进行语法分析,并通过将其与预测语义信息标签的机器学习模型的输出相结合来输出逻辑公式。
项目成果
期刊论文数量(4)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Toward 'parasitic scope' parsing: A case study on comparatives in Japanese
走向“寄生范围”句法分析:日语比较级的案例研究
- DOI:
- 发表时间:2023
- 期刊:
- 影响因子:0
- 作者:Duffield;Nigel;磯貝淳一;Yusuke Kubota
- 通讯作者:Yusuke Kubota
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
窪田 悠介其他文献
Crop terms in Japanese
日语中的农作物术语
- DOI:
- 发表时间:
2022 - 期刊:
- 影响因子:0
- 作者:
岡部 玲子;矢島 純;窪田 悠介;磯野 達也;中谷健太郎; 井川詩織; 島村礼子; 田川拓海; 林 弘美; 渡部直也; 于 一楽; 小野尚之; 加藤恒昭; 杉岡洋子; 曹 瑞; 高橋亮介; 外崎淑子; 畠山真一; 藤巻一真; 前田宏太郎; 由本陽子; 李 慧; 上野義雄; 漆原朗子; 岸本秀樹; ほか;Kohei Nakazawa and Akiko Yokoyama - 通讯作者:
Kohei Nakazawa and Akiko Yokoyama
「会話における『認識性』をめぐる英語の事例分析」
“对话中‘可识别性’的英语案例分析”
- DOI:
- 发表时间:
2021 - 期刊:
- 影响因子:0
- 作者:
岡部 玲子;矢島 純;窪田 悠介;磯野 達也;学谷 亮;早野薫 - 通讯作者:
早野薫
トラブル言明のフォーマットとしての「~けど」発話
表达“-but”作为表达麻烦的格式
- DOI:
- 发表时间:
2022 - 期刊:
- 影响因子:0
- 作者:
岡部 玲子;矢島 純;窪田 悠介;磯野 達也;学谷 亮;早野薫;石田聖子他;横森大輔 - 通讯作者:
横森大輔
「「テアル構文」とその周辺に関する覚書」『言語研究の楽しさと楽しみ』
《关于‘Theal Syntax’及其周边的备忘录》《语言研究的乐趣》
- DOI:
- 发表时间:
2021 - 期刊:
- 影响因子:0
- 作者:
漆原 朗子(著)岡部 玲子;矢島 純;窪田 悠介;磯野 達也(編) - 通讯作者:
磯野 達也(編)
窪田 悠介的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('窪田 悠介', 18)}}的其他基金
論理文法における日本語尺度表現の構成的意味論の構築
逻辑语法中日语音阶表达的组合语义构建
- 批准号:
10J02912 - 财政年份:2010
- 资助金额:
$ 2.75万 - 项目类别:
Grant-in-Aid for JSPS Fellows
相似海外基金
ラテン語における語源学と言語学:文献資料に根差した意味解釈と音韻・形態分析の融合
拉丁语的词源学和语言学:植根于文学来源和音系/形态分析的语义解释的融合
- 批准号:
24K03863 - 财政年份:2024
- 资助金额:
$ 2.75万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
脳磁図と頭蓋内脳波の時間分解MVP解析による言語の形式と意味を繋ぐシステムの解明
通过脑磁图和颅内脑电图的时间分辨 MVP 分析阐明连接语言形式和含义的系统
- 批准号:
23H00501 - 财政年份:2023
- 资助金额:
$ 2.75万 - 项目类别:
Grant-in-Aid for Scientific Research (A)
多言語かつオープンドメインな意味解析器の開発
多语言和开放领域语义分析器的开发
- 批准号:
23KJ0573 - 财政年份:2023
- 资助金额:
$ 2.75万 - 项目类别:
Grant-in-Aid for JSPS Fellows
Digital Delivery of Evidence-Based Mental Health Content and Mentoring to Adolescents
以数字方式向青少年提供循证心理健康内容和指导
- 批准号:
10758731 - 财政年份:2023
- 资助金额:
$ 2.75万 - 项目类别:
Holistic formalization of non-propositional meaning by cross-linguistic data-analysis: towards a new formal-logical language
通过跨语言数据分析非命题意义的整体形式化:走向新的形式逻辑语言
- 批准号:
22K13112 - 财政年份:2022
- 资助金额:
$ 2.75万 - 项目类别:
Grant-in-Aid for Early-Career Scientists