多様な話者性の制御を可能とする高品質なテキスト音声合成の研究
研究能够控制不同说话者特征的高质量文本到语音合成
基本信息
- 批准号:03J01700
- 负责人:
- 金额:$ 1.28万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for JSPS Fellows
- 财政年份:2003
- 资助国家:日本
- 起止时间:2003 至 2004
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
ある話者の音声を他の話者の音声へと変換する声質変換技術を用いることで、合成音声の特徴を容易に操作できる柔軟性の高い音声合成システムが実現できると見込まれる。声質変換では、少量の音声データから統計的に抽出された変換関数を用いることで任意の音声データに対するパラメータ変換が行われるが、既存手法の性能は不十分であり、得られる変換音声の品質劣化は大きい。この原因として、1)パラメータの時間変化に関する情報を使用していない、2)統計処理によりパラメータの過剰な平滑化が生じる、といった事が挙げられる。そこで,問題1)を解決するために、パラメータの静的特徴のみでなく動的特徴にも着目した変換法を提案した。さらに、問題2)を緩和するために、系列内変動という新たな特徴量を導入した変換法を提案した。従来法では統計処理として適切とは言い難いパラメータ変換処理が行われるが、提案法では尤度最大化基準に基づく変換処理が行われるため、数学的に取り扱いやすく、今後さらなる発展も十分に期待できる。実験的評価結果から、提案法は従来法と比較し、変換音声の音質、話者性を大きく改善できることを示した。また、本手法を実装したプログラムを、米国カーネギーメロン大学からフリーで公開されており世界中で広く使用されている音声合成用データベース作成ツールFestvoxに導入した。次期リリースにて本プログラムは公開される予定である。提案する統計的特徴量変換法を、調音特徴量からの音声合成、音声からの調音運動逆推定、非可聴つぶやきから通常音声への変換に対しても適用した。実験的評価により提案法の有効性を明らかにした。また、提案法を統計量ベーステキスト音声合成法における確率分布からのパラメータ生成に対しても適用した。実験的評価結果から、スペクトル・音源パラメータ生成においても提案法は有効であることを示した。
通过使用将一个说话者的声音转换为另一说话者的声音的语音质量转换技术,预计将实现一种高度灵活的语音合成系统,可以轻松地操纵合成语音的特性。在语音质量转换中,利用从少量语音数据中统计提取的转换函数对任意语音数据进行参数转换,但现有方法的性能不足,并且转换后的语音质量劣化较大。其原因是1)没有使用有关参数时间变化的信息,2)由于统计处理而对参数进行了过度平滑。因此,为了解决问题1),我们提出了一种既关注参数静态特征又关注动态特征的转换方法。此外,为了缓解问题2),我们提出了一种转换方法,引入了称为系列内变化的新特征。传统方法进行的参数转换处理很难说适合统计处理,但所提出的方法基于似然最大化准则进行转换处理,因此很容易在数学上处理,并且可以期待未来的进一步发展。实验评估结果表明,与传统方法相比,所提方法可以极大地改善转换后语音的音质和说话人特性。我们还在 Festvox 中引入了实现此方法的程序,Festvox 是一种语音合成数据库创建工具,由美国卡内基梅隆大学免费提供,在世界各地广泛使用。该程序计划在下一个版本中发布。所提出的统计特征转换方法还应用于根据发音特征的语音合成、根据语音对发音运动的逆估计以及从听不见的杂音到正常语音的转换。通过实验评估证明了该方法的有效性。我们还将所提出的方法应用于基于统计的文本到语音合成中的概率分布参数生成。实验评估结果表明,该方法在生成频谱和声源参数方面是有效的。
项目成果
期刊论文数量(6)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
戸田 智基: "波形接続型音声合成における知覚的評価に基づく素片選択サブコスト関数の最適化"電子情報通信学会技術研究報告. SP2003-81. 43-48 (2003)
Tomoki Toda:“基于波形级联语音合成中的感知评估的分段选择子成本函数的优化”IEICE 技术报告 SP2003-81 (2003)。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
Acoustic-to-articulatory inversion mapping with Gaussian mixture model
- DOI:10.21437/interspeech.2004-410
- 发表时间:2004
- 期刊:
- 影响因子:0
- 作者:T. Toda;A. Black;K. Tokuda
- 通讯作者:T. Toda;A. Black;K. Tokuda
Spectral conversion based on maximum likelihood estimation considering global variance of converted parameter
- DOI:10.1109/icassp.2005.1415037
- 发表时间:2005-03
- 期刊:
- 影响因子:0
- 作者:T. Toda;A. Black;K. Tokuda
- 通讯作者:T. Toda;A. Black;K. Tokuda
混合正規分布モデルに基づく非可聴つぶやき声(NAM)から通常音声への変換
基于混合正态分布模型的非可听杂音(NAM)到正常语音的转换
- DOI:
- 发表时间:2004
- 期刊:
- 影响因子:0
- 作者:戸田 智基;鹿野 清宏
- 通讯作者:鹿野 清宏
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
戸田 智基其他文献
微弱振動子とNAMマイクを用いた発話障害者補助
使用弱振动器和 NAM 麦克风帮助语言障碍人士
- DOI:
- 发表时间:
2008 - 期刊:
- 影响因子:0
- 作者:
中村 圭吾;戸田 智基;中島 淑貴;猿渡 洋;鹿野 清宏 - 通讯作者:
鹿野 清宏
音声生成過程を考慮したWaveNetに基づく音声波形合成法
考虑语音生成过程的基于WaveNet的语音波形合成方法
- DOI:
- 发表时间:
2017 - 期刊:
- 影响因子:0
- 作者:
玉森 聡;林 知樹;戸田 智基;武田 一哉 - 通讯作者:
武田 一哉
基本周波数制御可能なメルスペクトログラム入力型HiFi-GANの初期検討
具有基本频率控制的梅尔谱图输入类型 HiFi-GAN 的初步研究
- DOI:
- 发表时间:
2022 - 期刊:
- 影响因子:0
- 作者:
清水 聡太;岡本 拓磨;高島 遼一;滝口 哲也;戸田 智基;河井 恒 - 通讯作者:
河井 恒
Robust cell-cell signaling is achieved by fold-change responsiveness of the cells
强大的细胞间信号传导是通过细胞的倍数变化响应来实现的
- DOI:
- 发表时间:
2012 - 期刊:
- 影响因子:0
- 作者:
魚住 隆行 ら;戸田 智基;Yoichi Takenaka;神野圭太 - 通讯作者:
神野圭太
統計的パラメトリック音声合成における変調スペクトル制約付きトラジェクトリ学習
统计参数语音合成中的调制频谱约束轨迹学习
- DOI:
- 发表时间:
2015 - 期刊:
- 影响因子:0
- 作者:
高道 慎之介;戸田 智基;Alan W. Black;中村哲 - 通讯作者:
中村哲
戸田 智基的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
相似海外基金
Individual differences of motor control and emotion: exploring neural mechanisms of stuttering
运动控制和情绪的个体差异:探索口吃的神经机制
- 批准号:
19H04195 - 财政年份:2019
- 资助金额:
$ 1.28万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
Linguistic rhythm and the correlation between acoustic features, chest and abdominal muscle movements, and respiratory control during utterance
说话时的语言节奏以及声学特征、胸部和腹部肌肉运动以及呼吸控制之间的相关性
- 批准号:
17K02698 - 财政年份:2017
- 资助金额:
$ 1.28万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
A Study on the isolation and loneliness of the elderly: Transformation of social cognition and psychological control
老年人孤立与孤独的研究:社会认知与心理控制的转变
- 批准号:
15KT0090 - 财政年份:2015
- 资助金额:
$ 1.28万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Development of a hand robot that signs tactile Japanese finger alphabets for independent information access for the deafblind.
开发一种手机器人,可以签署触觉日语手指字母表,以便聋盲人独立获取信息。
- 批准号:
26350691 - 财政年份:2014
- 资助金额:
$ 1.28万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Study on a speech understanding system with an ability to estimate the effect of various environments and users on recognition accuracy
研究能够估计各种环境和用户对识别精度影响的语音理解系统
- 批准号:
21500165 - 财政年份:2009
- 资助金额:
$ 1.28万 - 项目类别:
Grant-in-Aid for Scientific Research (C)