多様な話者性の制御を可能とする高品質なテキスト音声合成の研究

研究能够控制不同说话者特征的高质量文本到语音合成

基本信息

项目摘要

ある話者の音声を他の話者の音声へと変換する声質変換技術を用いることで、合成音声の特徴を容易に操作できる柔軟性の高い音声合成システムが実現できると見込まれる。声質変換では、少量の音声データから統計的に抽出された変換関数を用いることで任意の音声データに対するパラメータ変換が行われるが、既存手法の性能は不十分であり、得られる変換音声の品質劣化は大きい。この原因として、1)パラメータの時間変化に関する情報を使用していない、2)統計処理によりパラメータの過剰な平滑化が生じる、といった事が挙げられる。そこで,問題1)を解決するために、パラメータの静的特徴のみでなく動的特徴にも着目した変換法を提案した。さらに、問題2)を緩和するために、系列内変動という新たな特徴量を導入した変換法を提案した。従来法では統計処理として適切とは言い難いパラメータ変換処理が行われるが、提案法では尤度最大化基準に基づく変換処理が行われるため、数学的に取り扱いやすく、今後さらなる発展も十分に期待できる。実験的評価結果から、提案法は従来法と比較し、変換音声の音質、話者性を大きく改善できることを示した。また、本手法を実装したプログラムを、米国カーネギーメロン大学からフリーで公開されており世界中で広く使用されている音声合成用データベース作成ツールFestvoxに導入した。次期リリースにて本プログラムは公開される予定である。提案する統計的特徴量変換法を、調音特徴量からの音声合成、音声からの調音運動逆推定、非可聴つぶやきから通常音声への変換に対しても適用した。実験的評価により提案法の有効性を明らかにした。また、提案法を統計量ベーステキスト音声合成法における確率分布からのパラメータ生成に対しても適用した。実験的評価結果から、スペクトル・音源パラメータ生成においても提案法は有効であることを示した。
通过使用语音质量转换技术将一个说话者的声音转换为另一个说话者的声音,可以预期可以实现一个高度灵活的语音合成系统,可以轻松地实现合成语音的特征。在语音质量转换中,通过使用从少量音频数据中提取的转换函数进行任意音频数据进行参数转换,但是现有方法的性能不足,并且所获得的转换音频的质量也大大恶化。原因包括:1)有关参数中时间变化的信息,而2)统计处理会导致参数过度平滑。因此,为了解决问题1),我们提出了一种转换方法,该方法不仅关注静态特征,还关注参数的动态特征。此外,为了减轻问题2),我们提出了一种转化方法,其中引入了新的特征量(称为内酶变化)。常规方法使用参数转换处理,这几乎不适合统计处理,但是所提出的方法使用基于可能性最大化标准的转换处理,使其易于数学上的处理,并且可以在将来进行进一步的开发。实验评估结果表明,与常规方法相比,所提出的方法可以显着改善转换声音的声音质量和扬声器特性。此外,将实施此方法的程序引入了FestVox,这是一种语音综合数据库创建工具,该工具是由美国卡内基·梅隆大学(Carnegie Mellon University)发表的自由职业者,并在世界各地广泛使用。该程序将在下一个版本中发布。提出的统计特征转换方法也应用于发音特征的语音综合,词性运动的反相反估计以及从不可听到的推文转换为正常语音。通过实验评估阐明了所提出的方法的有效性。该方法还应用于基于统计的文本语音合成方法中概率分布的参数生成。实验评估结果表明,所提出的方法也有效地生成光谱和声源参数。

项目成果

期刊论文数量(6)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
戸田 智基: "波形接続型音声合成における知覚的評価に基づく素片選択サブコスト関数の最適化"電子情報通信学会技術研究報告. SP2003-81. 43-48 (2003)
Tomoki Toda:“基于波形级联语音合成中的感知评估的分段选择子成本函数的优化”IEICE 技术报告 SP2003-81 (2003)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
Acoustic-to-articulatory inversion mapping with Gaussian mixture model
  • DOI:
    10.21437/interspeech.2004-410
  • 发表时间:
    2004
  • 期刊:
  • 影响因子:
    0
  • 作者:
    T. Toda;A. Black;K. Tokuda
  • 通讯作者:
    T. Toda;A. Black;K. Tokuda
Spectral conversion based on maximum likelihood estimation considering global variance of converted parameter
混合正規分布モデルに基づく非可聴つぶやき声(NAM)から通常音声への変換
基于混合正态分布模型的非可听杂音(NAM)到正常语音的转换
発話内変動を考慮した最尤スペクトル変換法
考虑话语内变异的最大似然谱变换方法
共 6 条
  • 1
  • 2
前往

戸田 智基其他文献

微弱振動子とNAMマイクを用いた発話障害者補助
使用弱振动器和 NAM 麦克风帮助语言障碍人士
  • DOI:
  • 发表时间:
    2008
    2008
  • 期刊:
  • 影响因子:
    0
  • 作者:
    中村 圭吾;戸田 智基;中島 淑貴;猿渡 洋;鹿野 清宏
    中村 圭吾;戸田 智基;中島 淑貴;猿渡 洋;鹿野 清宏
  • 通讯作者:
    鹿野 清宏
    鹿野 清宏
Tree-to-String 翻訳における構文解析器の自己学習の効果
解析器自学习对树到字符串翻译的影响
  • DOI:
  • 发表时间:
    2015
    2015
  • 期刊:
  • 影响因子:
    0
  • 作者:
    波多腰 優斗;Graham Neubig;Sakriani Sakti;戸田 智基;中村 哲
    波多腰 優斗;Graham Neubig;Sakriani Sakti;戸田 智基;中村 哲
  • 通讯作者:
    中村 哲
    中村 哲
機械翻訳の誤り箇所選択法における誤選択箇所の調査
机器翻译错误零件选择方法中错误零件选择的调查
  • DOI:
  • 发表时间:
    2015
    2015
  • 期刊:
  • 影响因子:
    0
  • 作者:
    赤部 晃一;Graham Neubig;Sakriani Sakti;戸田 智基;中村 哲
    赤部 晃一;Graham Neubig;Sakriani Sakti;戸田 智基;中村 哲
  • 通讯作者:
    中村 哲
    中村 哲
統計的パラメトリック音声合成における変調スペクトル制約付きトラジェクトリ学習
统计参数语音合成中的调制频谱约束轨迹学习
  • DOI:
  • 发表时间:
    2015
    2015
  • 期刊:
  • 影响因子:
    0
  • 作者:
    高道 慎之介;戸田 智基;Alan W. Black;中村哲
    高道 慎之介;戸田 智基;Alan W. Black;中村哲
  • 通讯作者:
    中村哲
    中村哲
統計的パラメトリック音声合成における変調スペクトルを考慮したパラメータ生成法
统计参数语音合成中考虑调制频谱的参数生成方法
  • DOI:
  • 发表时间:
    2015
    2015
  • 期刊:
  • 影响因子:
    0
  • 作者:
    高道 慎之介;戸田 智基;Alan W. Black;中村哲
    高道 慎之介;戸田 智基;Alan W. Black;中村哲
  • 通讯作者:
    中村哲
    中村哲
共 141 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 29
前往

相似海外基金

The science for the last mile: Enhanced epidemiologic surveillance to accelerate HIV elimination
最后一英里的科学:加强流行病学监测以加速消除艾滋病毒
  • 批准号:
    10578774
    10578774
  • 财政年份:
    2020
  • 资助金额:
    $ 1.28万
    $ 1.28万
  • 项目类别:
The science for the last mile: Enhanced epidemiologic surveillance to accelerate HIV elimination
最后一英里的科学:加强流行病学监测以加速消除艾滋病毒
  • 批准号:
    10348162
    10348162
  • 财政年份:
    2020
  • 资助金额:
    $ 1.28万
    $ 1.28万
  • 项目类别:
Phylodynamic Analysis of HIV Transmission Clusters in Kazakhstan for Targeted Interventions
对哈萨克斯坦艾滋病毒传播群进行系统动力学分析以进行有针对性的干预
  • 批准号:
    10212364
    10212364
  • 财政年份:
    2020
  • 资助金额:
    $ 1.28万
    $ 1.28万
  • 项目类别:
The science for the last mile: Enhanced epidemiologic surveillance to accelerate HIV elimination
最后一英里的科学:加强流行病学监测以加速消除艾滋病毒
  • 批准号:
    9926504
    9926504
  • 财政年份:
    2020
  • 资助金额:
    $ 1.28万
    $ 1.28万
  • 项目类别:
Phylodynamic Analysis of HIV Transmission Clusters in Kazakhstan for Targeted Interventions
对哈萨克斯坦艾滋病毒传播群进行系统动力学分析以进行有针对性的干预
  • 批准号:
    10074940
    10074940
  • 财政年份:
    2020
  • 资助金额:
    $ 1.28万
    $ 1.28万
  • 项目类别: