実用性の高いEnd-to-End音声認識に向けた研究

高实用性端到端语音识别研究

基本信息

  • 批准号:
    22KJ2898
  • 负责人:
  • 金额:
    $ 1.41万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
  • 财政年份:
    2023
  • 资助国家:
    日本
  • 起止时间:
    2023-03-08 至 2024-03-31
  • 项目状态:
    已结题

项目摘要

音声を使ったインターフェースの実用性を向上させるために、高速で高精度な音声認識技術の開発を進めている。これまでの研究では、マスク言語モデルに基づいた非自己回帰型のEnd-to-End音声認識モデルを構築し、従来モデルと遜色ない認識精度を実現しつつ、推論速度を大幅に高速化できることを示してきた。本年度は、提案モデルに大規模汎用言語モデルを取り入れることで、認識精度をさらに向上できることを明らかにした。また、提案モデルのストリーミング音声認識における有効性を確認した。音声認識において正確な文を生成するには、単語間の依存関係を捉えることが重要となるが、これを音声情報のみから抽出するのは容易でない。これに対し、大規模言語モデルであるBERTから得られる汎用的な言語知識を、音声処理の過程に組み込むことで、出力の文脈情報を効果的に捉えられる音声認識手法を考案した。様々な言語や発話スタイル、学習データ量を用いた音声認識実験において提案手法を評価した結果、従来モデルよりもも高い認識精度が得られることを確認した。また、これまでに開発した推論アルゴリズムと組み合わせることで、認識速度を大幅に高速化できることも明らかとなった。当該成果は、自然言語処理の主要会議であるEmpirical Methods inNatural Language Processing (EMNLP 2022)のFindings、および音声処理の主要会議であるIEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2023)などに採択された。
为了提高语音界面的实用性,我们正在开发高速、高精度的语音识别技术。在我们之前的研究中,我们构建了基于掩码语言模型的非自回归端到端语音识别模型,并证明可以显着加快推理速度,同时实现与传统模型 I' 相当的识别精度。已经展示过了。今年,我们透露,通过将大规模通用语言模型纳入所提出的模型中,可以进一步提高识别精度。我们还证实了所提出的模型在流式语音识别中的有效性。为了在语音识别中生成准确的句子,理解单词之间的依赖关系很重要,但仅从语音信息中提取这种依赖关系并不容易。为此,我们设计了一种语音识别方法,通过将从大规模语言模型 BERT 获得的通用语言知识融入到语音处理过程中,可以有效捕获输出的上下文信息。通过在使用各种语言、语音风格和训练数据量的语音识别实验中评估所提出的方法,我们证实它比传统模型实现了更高的识别精度。研究还表明,通过将该方法与先前开发的推理算法相结合,可以显着提高识别速度。该成果已被自然语言处理领域重要会议Findings of EmpiricalMethods in Natural Language Treatment (EMNLP 2022)和音频领域重要会议IEEE声学、语音和信号处理国际会议(ICASSP 2023)采纳加工。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Improving Non-Autoregressive End-to-End Speech Recognition with Pre-trained Acoustic and Language Models,
使用预先训练的声学和语言模型改进非自回归端到端语音识别,
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Keqi Deng
  • 通讯作者:
    Keqi Deng
Triggered attention型ストリーミング音声認識におけるMask-CTCを用いた事前学習
在触发注意力流语音识别中使用 Mask-CTC 进行预学习
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    チョウカイハク
  • 通讯作者:
    チョウカイハク
粒度の異なるサブワード単位に基づく階層的条件付きEnd-to-End音声認識
基于不同粒度子词单元的分层条件端到端语音识别
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    樋口陽祐
  • 通讯作者:
    樋口陽祐
Orthros: Non-autoregressive End-to-end Speech Translation with Dual-decoder
Orthros:使用双解码器的非自回归端到端语音翻译
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Hirofumi Inaguma
  • 通讯作者:
    Hirofumi Inaguma
An Investigation of Enhancing CTC Model for Triggered Attention-based Streaming ASR
基于注意力触发的流媒体 ASR 的增强 CTC 模型研究
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Huaibo Zhao
  • 通讯作者:
    Huaibo Zhao
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

樋口 陽祐其他文献

ゼロリソース言語音声認識のための発話者の違いに頑健な特徴抽出
针对零资源语言语音识别的说话人差异鲁棒特征提取
  • DOI:
  • 发表时间:
    2019
  • 期刊:
  • 影响因子:
    0
  • 作者:
    樋口 陽祐;俵 直弘;小川 哲司;小林 哲則
  • 通讯作者:
    小林 哲則

樋口 陽祐的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

相似国自然基金

基于肿瘤病理图片的靶向药物敏感生物标志物识别及统计算法的研究
  • 批准号:
    82304250
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
适当冷暴露通过肠道菌群调控心脏免疫微环境改善心梗后心室重构和心力衰竭的作用与机制
  • 批准号:
    82330014
  • 批准年份:
    2023
  • 资助金额:
    220 万元
  • 项目类别:
    重点项目
肠道普拉梭菌代谢物丁酸抑制心室肌铁死亡改善老龄性心功能不全的机制研究
  • 批准号:
    82300430
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
社会网络关系对公司现金持有决策影响——基于共御风险的作用机制研究
  • 批准号:
    72302067
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
面向图像目标检测的新型弱监督学习方法研究
  • 批准号:
    62371157
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目

相似海外基金

脳神経疾患による構音障害を克服するための,音声認識および音声合成AIシステムの開発
开发语音识别与语音合成AI系统,克服脑神经疾病引起的构音障碍
  • 批准号:
    24K10630
  • 财政年份:
    2024
  • 资助金额:
    $ 1.41万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
非母語話者のスマートフォン音声認識機能での誤認識傾向を考慮した発音学習システム
使用智能手机语音识别功能,考虑到非母语人士的误识别倾向的发音学习系统。
  • 批准号:
    24K06231
  • 财政年份:
    2024
  • 资助金额:
    $ 1.41万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Changes in apical cochlear mechanics after cochlear implantation
人工耳蜗植入后耳蜗顶端力学的变化
  • 批准号:
    10730981
  • 财政年份:
    2023
  • 资助金额:
    $ 1.41万
  • 项目类别:
Non-sensory Circuits for Auditory Perceptual Learning
用于听觉感知学习的非感觉回路
  • 批准号:
    10563542
  • 财政年份:
    2023
  • 资助金额:
    $ 1.41万
  • 项目类别:
The interaction of perinatal organophosphate flame retardant exposure and adult chronic stress on cognitive processing
围产期有机磷阻燃剂暴露与成人慢性应激对认知加工的相互作用
  • 批准号:
    10449738
  • 财政年份:
    2023
  • 资助金额:
    $ 1.41万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了