言語情報とパラ言語情報を統合した音声の構造的表象の提案とその音声合成への応用

整合语言和副语言信息的语音结构表示的提出及其在语音合成中的应用

基本信息

批准号：
19650036
负责人：
峯松信明
金额：
$ 2.11万
依托单位：
The University of Tokyo
依托单位国家：
日本
项目类别：
Grant-in-Aid for Exploratory Research
财政年份：
2007
资助国家：
日本
起止时间：
2007 至 2008
项目状态：
已结题

项目摘要

音声が運ぶ情報は大きく,言語的情報,パラ言語的情報,非言語的情報に分かれる。我々は音声から非言語的情報に相当する音響特徴量のみを分離する方法を提案している。年齢・性別による音声の音響的変形,収録機器・伝送機器による音声の音響的変形はいずれも,静的な空間写像として数学的にモデル化できる。よって,写像不変量でもって音声を表象・モデル化することで,静的な変形(変換)に不変な音声情報処理が可能となる。我々は分布間の距離尺度であるf-divergenceが如何なる変換に対しても不変であることを証明しており,発声中の全ての音響事象を分布として捉え,任意の二分布間(事象間)距離を計測し,距離行列として音声を(話者不変的に)表象する手法を提案している。距離行列は一つの幾何学的形態を規定するため,これを音声の構造的表象と呼んでいる。非言語情報がそぎ落とされるということは,言語情報とパラ言語情報のみが表象された音声表象であることを意味する。本研究では,この構造表象に対して,非言語的情報である話者の性別,年齢,体格(即ち声道形状)を戻すことで音声を生成する枠組みを検討した。即ち,言語情報,パラ言語情報は構造として与えられ,その構造を音に変換する声道の長さや形状の情報(非言語的情報)を付与することで音に変換する枠組みである。具体的には,幾つかの既に実現された音事象を初期条件として与え,構造的表象を制約条件としてその後の音事象を次々と音響空間内に定位する方法を採択した。この場合,定位済みの事象群をn個とすると,このn個の事象を中心とする超楕円を描き,n個の超楕円の交点が次に生成すべき音の定位場所,となる。この探索問題を計算機上に実装し,また,いくつかの高速化アルゴリズムを検討することで,現実的な計算量で構造からの音声生成を可能にした。この音声生成方式は,言語情報+パラ言語情報が混在した音声表象(構造的表象)を出発点として音を導出するという点が従来の音声生成方式とは大きく異なる。

声音所携带的信息很大，分为语言信息，旁语信息和非语言信息。我们提出了一种方法，仅将与语音信息相对应的声学特征分开。根据年龄和性别的声音转换，以及由于记录和传输设备而引起的语音的声学转换都可以数学地建模为静态空间图。因此，通过使用映射不变式表示和建模语音，可以在静态转换（转换）中处理语音信息不变。我们已经证明，F-Divergence（分布之间的距离度量）对于任何转换都是不变的，并提出了一种捕获语音中所有声学事件作为分布的方法，测量任何两个分布（事件间）距离，并表示语音（说话者不变）为距离矩阵。距离矩阵定义了几何形式，称为语音的结构表示。非语言信息被删除的事实意味着只有语言和副语言信息是代表性的语音表示。在这项研究中，我们研究了一个框架来通过恢复说话者的性别，年龄和体质（即声音形状），该框架是这种结构表达的非语言信息。也就是说，语言信息和副语言信息是作为结构提供的，并且是通过分配声音长度和形状的信息（非语言信息）将结构转换为声音的框架。具体而言，采用了一种方法，其中给出了几个已经实现的声音事件作为初始条件，随后的声音事件在声学空间中又一个接一个地定位，结构表示受到限制。在这种情况下，如果n事件是局部的，则绘制围绕这些n事件的hypellipse，而n个hyperellipses的相交将成为接下来要生成的声音的本地化位置。该搜索问题是在计算机上实现的，并通过检查一些加速算法，可以从具有现实计算复杂性的结构中生成语音。这种语音生成方法与常规语音生成方法有很大不同，因为它从声音表示（结构表示）中得出了声音，该方法包含语言信息和副语言信息作为起点。