Construction of an Evaluation Dataset and Quality Estimation for Neural Language Generation

神经语言生成评估数据集的构建和质量评估

基本信息

项目摘要

本研究では、言語生成の評価のためのデータセットを作成し、解釈性の高い自動評価手法を提案することを目的とします。作成されたテストデータそれぞれは言語モデルの単体テストのためのデータとして用いることができ、継続的インテグレーションを行う際の回帰テストに組み込むことができるようになります。本研究では、サブタスクごとのデータセットの収集・作成とともに、それを用いて自動評価を行う手法の提案を行います。本研究では、言語生成タスクのうち正例と負例を作成しやすい文法誤り訂正と機械翻訳を対象として、それぞれに対して評価用のデータセットおよびそれを用いた評価手法を提案します。文法誤り訂正は文法項目として習得すべき項目を列挙することが可能であり、それらの項目を正しく訂正できているか、という網羅的なチェックリストを作成することが可能です。また、機械翻訳では代表的な評価尺度(MQM, direct assessment 等)が存在するので、それらよりもきめ細かく機械翻訳を評価できる手法を提案します。2022年度は文法誤り訂正について網羅性の高いデータセットを作成する予備実験を行い、利点と欠点、限界について考察しました。機械翻訳では、MQM を用いた単語単位の品質推定の可能性について実験および考察を行いました。また、テキスト平易化の品質推定に向けたデータセットの拡充と、それを用いた品質推定手法の研究を行いました。
本研究的目的是创建一个用于评估语言生成的数据集,并提出一种具有高可解释性的自动评估方法。创建的每个测试数据都可以用作语言模型单元测试的数据,并且可以在执行持续集成时纳入回归测试。在这项研究中,我们将为每个子任务收集并创建一个数据集,并提出一种使用它自动评估它的方法。在这项研究中,我们针对语法错误纠正和机器翻译这些易于创建正例和负例的语言生成任务,并提出了使用它们的评估数据集和评估方法。对于语法错误纠正,可以将应该学习的项目列为语法项目,并且可以创建综合检查表来检查这些项目是否被正确纠正。此外,由于机器翻译有典型的评估量表(MQM、直接评估等),因此我们将提出一种比这些量表更精确地评​​估机器翻译的方法。 2022年,我们进行了初步实验,创建了一个高度全面的语法纠错数据集,并考虑了其优点、缺点和局限性。对于机器翻译,我们进行了实验并讨论了使用 MQM 估计逐字质量的可能性。我们还扩展了文本简化质量估计的数据集,并研究了使用它的质量估计方法。

项目成果

期刊论文数量(4)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
日本語文法誤り訂正コーパスへの誤用タグ付け
日语语法纠错语料库的误用标签
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    小山碧海;喜友名朝視顕;三田雅人;岡照晃;小町守
  • 通讯作者:
    小町守
ProQE: Proficiency-wise Quality Estimation Dataset for Grammatical Error Correction
ProQE:用于语法错误纠正的熟练程度质量估计数据集
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Yujin Takahashi;Masahiro Kaneko;Masato Mita;Mamoru Komachi
  • 通讯作者:
    Mamoru Komachi
日本語文法誤り訂正のための誤用タグ付き評価コーパスの構築
构建带有误用标签的评估语料库以纠正日语语法错误
  • DOI:
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    小山碧海;喜友名朝視顕;小林賢治;新井美桜;三田雅人;岡照晃;小町守
  • 通讯作者:
    小町守
Construction of a Quality Estimation Dataset for Automatic Evaluation of Japanese Grammatical Error Correction
日语语法纠错自动评价质量评价数据集的构建
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Daisuke Suzuki;Yujin Takahashi;Ikumi Yamashita;Taichi Aida;Tosho Hirasawa;Michitaka Nakatsuji;Masato Mita;Mamoru Komachi
  • 通讯作者:
    Mamoru Komachi
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

小町 守其他文献

Mutual <I>k</I>-Nearest Neighbor Graph Construction in Graph-based Semi-Supervised Classification
基于图的半监督分类中的互<I>k</I>-最近邻图构建
確信度に基づく退院時サマリの分析
基于置信水平的出院总结分析
  • DOI:
  • 发表时间:
    2019
  • 期刊:
  • 影响因子:
    0
  • 作者:
    安道 健一郎;奥村 貴史;小町 守;松本 裕治
  • 通讯作者:
    松本 裕治
事前学習モデルを用いた近代文語文のニューラル機械翻訳
使用预训练模型对现代文学文本进行神经机器翻译
  • DOI:
    10.20729/00216233
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    喜友名 朝視顕;平澤 寅庄;小町 守;小木曽 智信
  • 通讯作者:
    小木曽 智信
Generation of Diverse Corrected Sentences Considering the Degree of Correction
考虑纠正程度的多样化纠正句子的生成
  • DOI:
    10.5715/jnlp.28.428
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    甫立 健悟;金子 正弘;勝又 智;小町 守
  • 通讯作者:
    小町 守
市村 太郎, 河瀬 彰宏, 小木曽 智信
市村太郎、河濑明弘、小木曾智宣

小町 守的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('小町 守', 18)}}的其他基金

深層学習による言語生成の評価データセットの構築と品質推定
使用深度学习构建评估数据集和语言生成质量评估
  • 批准号:
    23K24907
  • 财政年份:
    2024
  • 资助金额:
    $ 11.15万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
言語学習者の誤用に注目した単語と文の分散表現の獲得と分析
获取和分析单词和句子的分布式表示,重点关注语言学习者的误用
  • 批准号:
    19KK0286
  • 财政年份:
    2020
  • 资助金额:
    $ 11.15万
  • 项目类别:
    Fund for the Promotion of Joint International Research (Fostering Joint International Research (A))
大規模なコーパスを用いた機械学習による名詞句の項構造解析
使用大规模语料库使用机器学习对名词短语进行术语结构分析
  • 批准号:
    08J09545
  • 财政年份:
    2008
  • 资助金额:
    $ 11.15万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows

相似海外基金

仮説検証能力の評価による言語生成AIの論理思考能力の研究
通过评估假设验证能力研究语言生成AI的逻辑思维能力
  • 批准号:
    24K15077
  • 财政年份:
    2024
  • 资助金额:
    $ 11.15万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
深層学習による言語生成の評価データセットの構築と品質推定
使用深度学习构建评估数据集和语言生成质量评估
  • 批准号:
    23K24907
  • 财政年份:
    2024
  • 资助金额:
    $ 11.15万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
元音声の音声言語情報を逐次的に考慮する同時音声翻訳の研究
顺序考虑原始语音的语音语言信息的同步语音翻译研究
  • 批准号:
    22KJ0838
  • 财政年份:
    2023
  • 资助金额:
    $ 11.15万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
ICT-based System for Large-scale and Global Japanese Language Education
基于ICT的大规模全球日语教育系统
  • 批准号:
    20J20043
  • 财政年份:
    2020
  • 资助金额:
    $ 11.15万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
Developing an Index to Measure of Text Coherence Using Natural Language Processing and Its Application to Prediction of Reading Test Difficulty
利用自然语言处理开发文本连贯性测量指标及其在阅读测试难度预测中的应用
  • 批准号:
    20K00901
  • 财政年份:
    2020
  • 资助金额:
    $ 11.15万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了