識別的特徴抽出と確率モデルに基づく多様な環境・発声変動に頑健な音声認識

基于判别特征提取和概率模型的语音识别对不同环境和发声变化具有鲁棒性

基本信息

批准号：
15K16020
负责人：
王龍標
金额：
$ 2.5万
依托单位：
Nagaoka University of Technology
依托单位国家：
日本
项目类别：
Grant-in-Aid for Young Scientists (B)
财政年份：
2015
资助国家：
日本
起止时间：
2015-04-01 至 2017-03-31
项目状态：
已结题

来源：
https://kaken.nii.ac.jp/en/grant/KAKENHI-PROJECT-15K16020/
关键词：
音声認識深層学習特徴適応

项目摘要

本研究は、多様な発話環境・発話スタイル・発話アクセントの音声に対して、環境・発声変動を正規化しながら識別的特徴抽出と確率モデルを一体化する高精度な音声認識法を研究した。具体的には、平成27年度に、（１）多様な環境・発声様式による英語音声データベースの整備、（２）深層学習（Deep Learning）による環境・発声変動の除去・識別的特徴変換の同時最適化に基づく識別的特徴抽出、（３）多様な環境・発話変動などの音声認識への悪影響を軽減するPLDA（確率的線形判別分析）-HMMによる音声認識、を行った。平成28年度では、（１）雑音環境におけるマルチチャンネル特徴適応、（２）アクセントが強い非母国語話者の発話に頑健な音声認識、を行った。（１）について、悪環境下での音声認識率（単語正解精度）を従来の60％程度から実用化レベルの80％を超えた。（２）について、非母国語話者の音声認識の精度改善を目的とし、非母国語話者に対応した音響モデル学習の手法と、深層学習による特徴量変換の手法を提案した。非母国語話者の音声認識は低リソースの条件であるため、音響モデルとして部分空間混合ガウスモデル（SGMM）を利用した。さらにSGMMは異なる種類の音声を学習データとして複数用いた場合に、その差を考慮した学習が可能であるため、母国語話者の音声と非母国語話者の音声の両方を利用する学習方法（cross-accent SGMM）を提案した。また、深層学習を特徴量変換器として利用する手法を提案した。これらの手法について非母国語話者の音声認識実験において評価を行い、認識精度を大幅に改善した。

在这项研究中，我们研究了一种高度准确的语音识别方法，该方法集成了判别性特征提取和概率模型，同时对具有不同语音环境、语音风格和语音口音的语音的环境和声音波动进行标准化。具体来说，在2015财年，我们将（1）开发基于各种环境和声音风格的英语语音数据库，以及（2）利用深度学习同时优化环境和声音变化的去除以及判别性特征的转换。语音识别采用PLDA（概率线性判别分析）-HMM，减少各种环境和语音波动对语音识别的负面影响。在 2016 财年，我们执行了 (1) 在嘈杂环境中的多通道特征自适应，以及 (2) 对带有浓重口音的非母语人士的话语进行鲁棒语音识别。对于（1），恶劣环境下的语音识别率（单词正确率）从传统的60%左右提高到80%以上，达到实用水平。针对（2），我们提出了一种兼容非母语者的声学模型学习方法和一种利用深度学习的特征转换方法，旨在提高非母语者语音识别的准确性。由于非母语人士的语音识别需要较低的资源，因此我们使用子空间高斯混合模型（SGMM）作为声学模型。此外，当SGMM使用多种不同类型的语音作为训练数据时，可以进行考虑到它们之间差异的学习，因此它是一种同时使用母语者语音和非母语者语音的学习方法扬声器（跨口音 SGMM）。我们还提出了一种使用深度学习作为特征转换器的方法。我们在非母语人士的语音识别实验中评估了这些方法，识别精度得到了显着提高。

项目成果

期刊论文数量（12）

专著数量（0）

科研奖励数量（0）

会议论文数量（0）

专利数量（0）

DNN-Based Amplitude and Phase Feature Enhancement for Noise Robust Speaker Identification

DOI：
10.21437/interspeech.2016-717
发表时间：
2016-09
期刊：
影响因子：
0
作者：
Zeyan Oo;Yuta Kawakami;Longbiao Wang;S. Nakagawa;Xiong Xiao;M. Iwahashi
通讯作者：
Zeyan Oo;Yuta Kawakami;Longbiao Wang;S. Nakagawa;Xiong Xiao;M. Iwahashi

Robust speech recognition using beamforming with adaptive microphone gains and multichannel noise reduction

DOI：
10.1109/asru.2015.7404831
发表时间：
2015-12
期刊：
2015 IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU)
影响因子：
0
作者：
Shengkui Zhao;Xiong Xiao;Zhaofeng Zhang;Thi Ngoc Tho Nguyen;X. Zhong;Bo Ren;Longbiao Wang;Douglas L. Jones;Chng Eng Siong;Haizhou Li
通讯作者：
Shengkui Zhao;Xiong Xiao;Zhaofeng Zhang;Thi Ngoc Tho Nguyen;X. Zhong;Bo Ren;Longbiao Wang;Douglas L. Jones;Chng Eng Siong;Haizhou Li

南洋理工大学/Institute for Infocomm Research(シンガポール)

南洋理工大学/信息通信研究所（新加坡）

DOI：
发表时间：
期刊：
影响因子：
0
作者：
通讯作者：

Distant-talking accent recognition by combining GMM and DNN

DOI：
10.1007/s11042-015-2935-4
发表时间：
2015-09
期刊：
Multimedia Tools and Applications
影响因子：
3.6
作者：
Khomdet Phapatanaburi;Longbiao Wang;Ryota Sakagami;Zhaofeng Zhang;Ximin Li;M. Iwahashi
通讯作者：
Khomdet Phapatanaburi;Longbiao Wang;Ryota Sakagami;Zhaofeng Zhang;Ximin Li;M. Iwahashi

Relative phase information for detecting human speech and spoofed speech