End-to-End音声合成とEnd-to-End音声認識の統合システム
端到端语音合成和端到端语音识别集成系统
基本信息
- 批准号:19J21031
- 负责人:
- 金额:$ 1.98万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for JSPS Fellows
- 财政年份:2019
- 资助国家:日本
- 起止时间:2019-04-25 至 2022-03-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
研究の目的はEnd-to-End音声合成とEnd-to-End音声認識を統合することで、適用対象(タスク、ドメイン)のテキストのみがある条件でも音声との対データを構成し、一括で学習するシステムを実現することである。今年度は音声認識と音声合成を効率的に統合でき、かつ音声認識の性能の低下が少ない表現を構成する方法の研究を行った。音声認識の性能の低下の原因のひとつとして挙げられるのが、実際に人間が話した音声(自然音声)と音声合成システムが生成した音声(合成音声)に差があることである。音声合成においては、通常テキストから人が聞くことのできる音声波形を作るのに必要な周波数スペクトル特徴量を予測するモデルを用いた後に、その周波数スペクトル特徴量を音声波形に変換するモデルを用いて、音声波形を生成する。周波数スペクトル特徴量は音声認識の訓練データとしても用いられ、生成された音声波形を再び周波数スペクトル特徴量に変換し、音声認識に用いる。音声波形に変換するモデルには自然音声と合成音声の差異を埋める効果があるが、この波形生成に非常に時間がかかるという問題がある。そこで今年度は音声波形に変換するモデルを用いずに周波数スペクトル特徴量上で直接差異を埋めるネットワークを構築した。提案手法では、生成された周波数スペクトル特徴量だけでなく、音声合成のタスクで利用可能な発話の音素系列情報も用いる。評価実験から、提案手法が音声波形に変換するよりも少ない処理時間で音声認識の拡張の効果が高いことを示し、また、発話の音素系列情報の利用も改善に重要であることを示した。
研究的目的是整合端到端语音合成和端到端语音识别,即使在应用目标(任务、领域)只有文本的情况下,也可以组成配对数据并同时执行所有操作,目标是实现一个可以学习的系统。今年,我们研究了一种能够有效集成语音识别和语音合成的表达组合方法,并且对语音识别性能的影响最小。语音识别性能下降的原因之一是人类实际说出的语音(自然语音)与语音合成系统生成的语音(合成语音)之间的差异。语音合成通常使用一个模型来预测从文本创建可听音频波形所需的频谱特征,然后使用一个模型将频谱特征转换为音频波形,生成音频波形。频谱特征还用作语音识别的训练数据,将生成的语音波形转换回频谱特征并用于语音识别。转换语音波形的模型具有弥合自然语音和合成语音之间差异的效果,但问题是生成该波形需要很长时间。因此,今年我们构建了一个网络,直接填充频谱特征的差异,而不使用将其转换为语音波形的模型。该方法不仅使用生成的频谱特征,还使用可在语音合成任务中使用的话语的音素序列信息。评估实验表明,该方法在扩展语音识别方面非常有效,处理时间比转换为语音波形要少,并且还表明语音音素序列信息的使用对于改进很重要。
项目成果
期刊论文数量(11)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Phone-informed refinement of synthesized Mel spectrogram for data augmentation in speech recognition
用于语音识别中数据增强的合成梅尔谱图的电话通知细化
- DOI:
- 发表时间:2022
- 期刊:
- 影响因子:0
- 作者:Sei Ueno;Tatsuya Kawahara
- 通讯作者:Tatsuya Kawahara
wav2vec 2.0を用いた音声合成による音声認識のデータ拡張
使用wav2vec 2.0通过语音合成进行语音识别的数据扩展
- DOI:
- 发表时间:2021
- 期刊:
- 影响因子:0
- 作者:上乃聖; 河原達也
- 通讯作者:河原達也
Phone-informed refinement of synthesized Mel spectrogram for data augmentation in speech recognition
用于语音识别中数据增强的合成梅尔谱图的电话通知细化
- DOI:
- 发表时间:2022
- 期刊:
- 影响因子:0
- 作者:Sei Ueno;Tatsuya Kawahara
- 通讯作者:Tatsuya Kawahara
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
上乃 聖其他文献
上乃 聖的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
相似海外基金
脳神経疾患による構音障害を克服するための,音声認識および音声合成AIシステムの開発
开发语音识别与语音合成AI系统,克服脑神经疾病引起的构音障碍
- 批准号:
24K10630 - 财政年份:2024
- 资助金额:
$ 1.98万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
人間の感覚と整合する音声特徴空間の構築
符合人类感官的音频特征空间构建
- 批准号:
22K19793 - 财政年份:2022
- 资助金额:
$ 1.98万 - 项目类别:
Grant-in-Aid for Challenging Research (Exploratory)
Spoken Language Acquisition Agent with Fluent Intonation
语调流利的口语习得代理
- 批准号:
22K12069 - 财政年份:2022
- 资助金额:
$ 1.98万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Optimizing the Difficulty Level of Shadowing Materials by Utilizing Speech Recognition and Speech Synthesis
利用语音识别和语音合成优化阴影材料的难度级别
- 批准号:
19K00788 - 财政年份:2019
- 资助金额:
$ 1.98万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Optimizing the Difficulty Level of Shadowing Materials by Utilizing Speech Recognition and Speech Synthesis
利用语音识别和语音合成优化阴影材料的难度级别
- 批准号:
19K00788 - 财政年份:2019
- 资助金额:
$ 1.98万 - 项目类别:
Grant-in-Aid for Scientific Research (C)