Unifying Pre-training and Multilingual Semantic Representation Learning for Low-resource Neural Machine Translation

统一预训练和多语言语义表示学习以实现低资源神经机器翻译

基本信息

  • 批准号:
    22KJ1843
  • 负责人:
  • 金额:
    $ 1.09万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
  • 财政年份:
    2023
  • 资助国家:
    日本
  • 起止时间:
    2023-03-08 至 2024-03-31
  • 项目状态:
    已结题

项目摘要

In the past year, we focused on improving the efficiency of multilingual sentence representation learning and exploring novel methods for improving multilingual machine translation. Both research promotes the research for multilingual / low-resource neural machine translation.(1) We proposed an efficient and effective method for training and presented the work in 言語処理学会 2023. On the other hand, we proposed knowledge distillation for compressing a large model, and it has been accepted to EACL 2023 main conference, which leads to efficient model inference. With the above achievements, the process of collecting parallel sentences for training translation systems will be accelerated. Specifically, the model training phase can be accelerated by 4 - 16 times, and the model inference phase can achieve 2.5 - 5 times speedup with further faster speed on downstream tasks.(2) We explored novel ways to improve the multilingual translation system with a word-level contrastive learning technique and obtained better translation quality for low-resource language pairs, which was accepted by NAACL 2022 findings. We also explained the improvements by showing the relationship between BLEU scores and sentence retrieval performance of the NMT encoder, which motivates that future work can focus on further improving the encoder’s retrieval performance in many-to-many NMT and contrastive objective’s feasibility in a massively multilingual scenario.
在过去的一年里,我们专注于提高多语言句子表示学习的效率并探索改进多语言机器翻译的新方法,这两项研究都促进了多语言/低资源神经机器翻译的研究。(1)我们提出了一种高效且有效的方法。方法进行训练,并在日本语言处理学会 2023 上展示了工作。另一方面,我们提出了压缩大型模型的知识蒸馏,并已被 E​​ACL 2023 主会议接受,从而产生了高效的模型有了上述成果,收集并行句子用于训练翻译系统的过程将加速,模型训练阶段可以加速4-16倍,模型推理阶段可以实现2.5-5倍的加速。 (2)我们探索了利用词级对比学习技术改进多语言翻译系统的新方法,并为低资源语言对获得了更好的翻译质量,该结果被NAACL 2022研究结果所接受。还通过展示 NMT 编码器的 BLEU 分数和句子检索性能之间的关系来解释这些改进,这促使未来的工作可以集中于进一步提高编码器在多对多 NMT 中的检索性能以及对比目标在大规模多语言场景中的可行性。

项目成果

期刊论文数量(11)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
When do Contrastive Word Alignments Improve Many-to-many Neural Machine Translation?
对比词对齐何时可以改善多对多神经机器翻译?
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Zhuoyuan Mao;Chenhui Chu;Raj Dabre;Haiyue Song;Zhen Wan and Sadao Kurohashi
  • 通讯作者:
    Zhen Wan and Sadao Kurohashi
Textual Enhanced Contrastive Learning for Solving Math Word Problems
  • DOI:
    10.48550/arxiv.2211.16022
  • 发表时间:
    2022-11
  • 期刊:
  • 影响因子:
    3.9
  • 作者:
    Yibin Shen;Qianying Liu;Zhuoyuan Mao;Fei Cheng;S. Kurohashi
  • 通讯作者:
    Yibin Shen;Qianying Liu;Zhuoyuan Mao;Fei Cheng;S. Kurohashi
Rescue Implicit and Long-tail Cases: Nearest Neighbor Relation Extraction
  • DOI:
    10.48550/arxiv.2210.11800
  • 发表时间:
    2022-10
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Zhen Wan;Qianying Liu;Zhuoyuan Mao;Fei Cheng;S. Kurohashi;Jiwei Li
  • 通讯作者:
    Zhen Wan;Qianying Liu;Zhuoyuan Mao;Fei Cheng;S. Kurohashi;Jiwei Li
Seeking Diverse Reasoning Logic: Controlled Equation Expression Generation for Solving Math Word Problems
  • DOI:
    10.48550/arxiv.2209.10310
  • 发表时间:
    2022-09
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Yibin Shen;Qianying Liu;Zhuoyuan Mao;Zhen Wan;Fei Cheng;S. Kurohashi
  • 通讯作者:
    Yibin Shen;Qianying Liu;Zhuoyuan Mao;Zhen Wan;Fei Cheng;S. Kurohashi
Linguistically Driven Multi-Task Pre-Training for Low-Resource Neural Machine Translation
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

毛 卓遠其他文献

毛 卓遠的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

相似国自然基金

高效低资源机器翻译模型设计及预训练方法研究
  • 批准号:
    62306284
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
基于语言知识约束的汉-缅低资源神经机器翻译方法研究
  • 批准号:
    62366027
  • 批准年份:
    2023
  • 资助金额:
    31 万元
  • 项目类别:
    地区科学基金项目
低资源语言机器翻译中的无监督和半监督学习方法研究
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    33 万元
  • 项目类别:
    地区科学基金项目
中亚地区低资源形态丰富黏着语言的神经机器翻译研究
  • 批准号:
    62166044
  • 批准年份:
    2021
  • 资助金额:
    35 万元
  • 项目类别:
    地区科学基金项目
面向低资源语言神经网络机器翻译的知识迁移方法研究
  • 批准号:
  • 批准年份:
    2019
  • 资助金额:
    24 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

Multilingual corpus construction and domain adaptation for low-resource machine translation
低资源机器翻译的多语言语料库构建和领域适应
  • 批准号:
    22KJ1724
  • 财政年份:
    2023
  • 资助金额:
    $ 1.09万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
Liquid Immunogenic Fiducial Eluter (LIFE) for Cervical Cancer Treatment
用于宫颈癌治疗的液体免疫原性基准洗脱器 (LIFE)
  • 批准号:
    10385213
  • 财政年份:
    2022
  • 资助金额:
    $ 1.09万
  • 项目类别:
RAPID System for Early Detection of Head and Neck Cancer in Low-Resource Settings
用于资源匮乏地区早期检测头颈癌的 RAPID 系统
  • 批准号:
    10444593
  • 财政年份:
    2022
  • 资助金额:
    $ 1.09万
  • 项目类别:
Beyond parallel corpora: Enriching low-resource machine translation by leveraging language documentation data
超越并行语料库:利用语言文档数据丰富低资源机器翻译
  • 批准号:
    570119-2022
  • 财政年份:
    2022
  • 资助金额:
    $ 1.09万
  • 项目类别:
    Postgraduate Scholarships - Doctoral
Effect of drinking water treatment on bacterial strain sharing among Kenyan children
饮用水处理对肯尼亚儿童细菌菌株共享的影响
  • 批准号:
    10629375
  • 财政年份:
    2022
  • 资助金额:
    $ 1.09万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了