Construction of an Evaluation Dataset and Quality Estimation for Neural Language Generation

神经语言生成评估数据集的构建和质量评估

基本信息

项目摘要

本研究では、言語生成の評価のためのデータセットを作成し、解釈性の高い自動評価手法を提案することを目的とします。作成されたテストデータそれぞれは言語モデルの単体テストのためのデータとして用いることができ、継続的インテグレーションを行う際の回帰テストに組み込むことができるようになります。本研究では、サブタスクごとのデータセットの収集・作成とともに、それを用いて自動評価を行う手法の提案を行います。本研究では、言語生成タスクのうち正例と負例を作成しやすい文法誤り訂正と機械翻訳を対象として、それぞれに対して評価用のデータセットおよびそれを用いた評価手法を提案します。文法誤り訂正は文法項目として習得すべき項目を列挙することが可能であり、それらの項目を正しく訂正できているか、という網羅的なチェックリストを作成することが可能です。また、機械翻訳では代表的な評価尺度(MQM, direct assessment 等)が存在するので、それらよりもきめ細かく機械翻訳を評価できる手法を提案します。2022年度は文法誤り訂正について網羅性の高いデータセットを作成する予備実験を行い、利点と欠点、限界について考察しました。機械翻訳では、MQM を用いた単語単位の品質推定の可能性について実験および考察を行いました。また、テキスト平易化の品質推定に向けたデータセットの拡充と、それを用いた品質推定手法の研究を行いました。
这项研究旨在创建一个数据集来评估语言生成,并提出一种高度可解释的自动化评估方法。每个创建的测试数据都可以用作语言模型的单元测试,并且可以在执行连续集成时将其纳入回归测试中。在这项研究中,我们将为每个子任务收集并创建数据集,并提出一种自动评估它们的方法。在这项研究中,我们提出了一个用于评估的数据集,并使用这些数据集提出了一种评估方法,以语法误差校正和机器翻译为目标,这使得在语言生成任务之间创建正面和负面示例变得容易。语法误差校正可用于列出应作为语法项目获取的项目,并且可以创建详尽的清单以确定是否正确纠正了这些项目。此外,由于机器翻译有代表性评估量表(MQM,直接评估等),因此我们提出了一种方法,使您可以比这些方法更详细地评估机器翻译。在2022年,我们进行了初步实验,以创建一个高度全面的语法误差校正数据集,并检查了其优势,缺点和局限性。在机器翻译中,我们对使用MQM估算单词质量的可能性进行了实验和考虑。我们还扩展了数据集以估计文本质量的质量,并使用这些数据集研究了质量估计方法。

项目成果

期刊论文数量(4)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
日本語文法誤り訂正コーパスへの誤用タグ付け
日语语法纠错语料库的误用标签
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    小山碧海;喜友名朝視顕;三田雅人;岡照晃;小町守
  • 通讯作者:
    小町守
ProQE: Proficiency-wise Quality Estimation Dataset for Grammatical Error Correction
ProQE:用于语法错误纠正的熟练程度质量估计数据集
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Yujin Takahashi;Masahiro Kaneko;Masato Mita;Mamoru Komachi
  • 通讯作者:
    Mamoru Komachi
日本語文法誤り訂正のための誤用タグ付き評価コーパスの構築
构建带有误用标签的评估语料库以纠正日语语法错误
  • DOI:
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    小山碧海;喜友名朝視顕;小林賢治;新井美桜;三田雅人;岡照晃;小町守
  • 通讯作者:
    小町守
Construction of a Quality Estimation Dataset for Automatic Evaluation of Japanese Grammatical Error Correction
日语语法纠错自动评价质量评价数据集的构建
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Daisuke Suzuki;Yujin Takahashi;Ikumi Yamashita;Taichi Aida;Tosho Hirasawa;Michitaka Nakatsuji;Masato Mita;Mamoru Komachi
  • 通讯作者:
    Mamoru Komachi
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

小町 守其他文献

Mutual <I>k</I>-Nearest Neighbor Graph Construction in Graph-based Semi-Supervised Classification
基于图的半监督分类中的互<I>k</I>-最近邻图构建
確信度に基づく退院時サマリの分析
基于置信水平的出院总结分析
  • DOI:
  • 发表时间:
    2019
  • 期刊:
  • 影响因子:
    0
  • 作者:
    安道 健一郎;奥村 貴史;小町 守;松本 裕治
  • 通讯作者:
    松本 裕治
事前学習モデルを用いた近代文語文のニューラル機械翻訳
使用预训练模型对现代文学文本进行神经机器翻译
  • DOI:
    10.20729/00216233
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    喜友名 朝視顕;平澤 寅庄;小町 守;小木曽 智信
  • 通讯作者:
    小木曽 智信
Generation of Diverse Corrected Sentences Considering the Degree of Correction
考虑纠正程度的多样化纠正句子的生成
  • DOI:
    10.5715/jnlp.28.428
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    甫立 健悟;金子 正弘;勝又 智;小町 守
  • 通讯作者:
    小町 守
歴史的日本語資料を対象とした形態素解析
日本历史资料的形态分析
  • DOI:
  • 发表时间:
    2013
  • 期刊:
  • 影响因子:
    0
  • 作者:
    小木曽 智信;小町 守;松本 裕治
  • 通讯作者:
    松本 裕治

小町 守的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('小町 守', 18)}}的其他基金

深層学習による言語生成の評価データセットの構築と品質推定
使用深度学习构建评估数据集和语言生成质量评估
  • 批准号:
    23K24907
  • 财政年份:
    2024
  • 资助金额:
    $ 11.15万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
言語学習者の誤用に注目した単語と文の分散表現の獲得と分析
获取和分析单词和句子的分布式表示,重点关注语言学习者的误用
  • 批准号:
    19KK0286
  • 财政年份:
    2020
  • 资助金额:
    $ 11.15万
  • 项目类别:
    Fund for the Promotion of Joint International Research (Fostering Joint International Research (A))
大規模なコーパスを用いた機械学習による名詞句の項構造解析
使用大规模语料库使用机器学习对名词短语进行术语结构分析
  • 批准号:
    08J09545
  • 财政年份:
    2008
  • 资助金额:
    $ 11.15万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows

相似海外基金

仮説検証能力の評価による言語生成AIの論理思考能力の研究
通过评估假设验证能力研究语言生成AI的逻辑思维能力
  • 批准号:
    24K15077
  • 财政年份:
    2024
  • 资助金额:
    $ 11.15万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
深層学習による言語生成の評価データセットの構築と品質推定
使用深度学习构建评估数据集和语言生成质量评估
  • 批准号:
    23K24907
  • 财政年份:
    2024
  • 资助金额:
    $ 11.15万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
元音声の音声言語情報を逐次的に考慮する同時音声翻訳の研究
顺序考虑原始语音的语音语言信息的同步语音翻译研究
  • 批准号:
    22KJ0838
  • 财政年份:
    2023
  • 资助金额:
    $ 11.15万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
ICT-based System for Large-scale and Global Japanese Language Education
基于ICT的大规模全球日语教育系统
  • 批准号:
    20J20043
  • 财政年份:
    2020
  • 资助金额:
    $ 11.15万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
Developing an Index to Measure of Text Coherence Using Natural Language Processing and Its Application to Prediction of Reading Test Difficulty
利用自然语言处理开发文本连贯性测量指标及其在阅读测试难度预测中的应用
  • 批准号:
    20K00901
  • 财政年份:
    2020
  • 资助金额:
    $ 11.15万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了