End-to-End音声合成とEnd-to-End音声認識の統合システム

端到端语音合成和端到端语音识别集成系统

基本信息

批准号：
19J21031
负责人：
上乃聖
金额：
$ 1.98万
依托单位：
Kyoto University
依托单位国家：
日本
项目类别：
Grant-in-Aid for JSPS Fellows
财政年份：
2019
资助国家：
日本
起止时间：
2019-04-25 至 2022-03-31
项目状态：
已结题

来源：
https://kaken.nii.ac.jp/en/grant/KAKENHI-PROJECT-19J21031/
关键词：
音声認識音声合成

项目摘要

研究の目的はEnd-to-End音声合成とEnd-to-End音声認識を統合することで、適用対象(タスク、ドメイン)のテキストのみがある条件でも音声との対データを構成し、一括で学習するシステムを実現することである。今年度は音声認識と音声合成を効率的に統合でき、かつ音声認識の性能の低下が少ない表現を構成する方法の研究を行った。音声認識の性能の低下の原因のひとつとして挙げられるのが、実際に人間が話した音声(自然音声)と音声合成システムが生成した音声(合成音声)に差があることである。音声合成においては、通常テキストから人が聞くことのできる音声波形を作るのに必要な周波数スペクトル特徴量を予測するモデルを用いた後に、その周波数スペクトル特徴量を音声波形に変換するモデルを用いて、音声波形を生成する。周波数スペクトル特徴量は音声認識の訓練データとしても用いられ、生成された音声波形を再び周波数スペクトル特徴量に変換し、音声認識に用いる。音声波形に変換するモデルには自然音声と合成音声の差異を埋める効果があるが、この波形生成に非常に時間がかかるという問題がある。そこで今年度は音声波形に変換するモデルを用いずに周波数スペクトル特徴量上で直接差異を埋めるネットワークを構築した。提案手法では、生成された周波数スペクトル特徴量だけでなく、音声合成のタスクで利用可能な発話の音素系列情報も用いる。評価実験から、提案手法が音声波形に変換するよりも少ない処理時間で音声認識の拡張の効果が高いことを示し、また、発話の音素系列情報の利用も改善に重要であることを示した。

研究的目的是整合端到端语音合成和端到端语音识别，即使在应用目标（任务、领域）只有文本的情况下，也可以组成配对数据并同时执行所有操作，目标是实现一个可以学习的系统。今年，我们研究了一种能够有效集成语音识别和语音合成的表达组合方法，并且对语音识别性能的影响最小。语音识别性能下降的原因之一是人类实际说出的语音（自然语音）与语音合成系统生成的语音（合成语音）之间的差异。语音合成通常使用一个模型来预测从文本创建可听音频波形所需的频谱特征，然后使用一个模型将频谱特征转换为音频波形，生成音频波形。频谱特征还用作语音识别的训练数据，将生成的语音波形转换回频谱特征并用于语音识别。转换语音波形的模型具有弥合自然语音和合成语音之间差异的效果，但问题是生成该波形需要很长时间。因此，今年我们构建了一个网络，直接填充频谱特征的差异，而不使用将其转换为语音波形的模型。该方法不仅使用生成的频谱特征，还使用可在语音合成任务中使用的话语的音素序列信息。评估实验表明，该方法在扩展语音识别方面非常有效，处理时间比转换为语音波形要少，并且还表明语音音素序列信息的使用对于改进很重要。