モデルの広がりを考慮した頑健な音声認識手法の研究

考虑模型扩散的鲁棒语音识别方法研究

基本信息

批准号：
09878065
负责人：
広瀬啓吉
金额：
$ 1.15万
依托单位：
The University of Tokyo
依托单位国家：
日本
项目类别：
Grant-in-Aid for Exploratory Research
财政年份：
1997
资助国家：
日本
起止时间：
1997 至 1998
项目状态：
已结题

项目摘要

本研究は、隠れマルコフモデル(HMM)に基づく音声認識において、使用環境が学習環境と異なる場合にも認識率の低下が小さな頑健な手法として我々が新しく提案したビタビベイズ予測分類等の確立を図るものである。この手法は、環境の違いにより、音素等のモデルがHMMパラメータ空間において広がりを持つと考えることを基本とするもので、昨年度の引き続き、本年度は下記の成果を得、所期の研究目標を達成した。1. 使用環境における音声データが与えられた時、順次により確からしい事後確率密度関数を推定してビタビベイズ予測分類を行うことを検討した。事前確率密度関数から事後確率密度関数を推定する過程において、確率密度の分布の項数がべき乗で増大して計算量の爆発を招くという問題があるが、これに対し、N-ベストビタビ経路の選択によって数個の代表的な分布に限定する手法を開発した。60名の話者による離散数字音声を用い、白色雑音付加と性差の場合について実験を行った結果、提案方式の従来方式に対する有効性を、認識性能と学習の収束速度の両面について確認した。2. 学習環境と使用環境との違いによるHMMモデルの広がりを前提とした認識判定手法として、従来よりMinimax法が提案されているが、連続音声への拡張が困難という問題点があった。これに対し、ビタビ探索をにより擬似Minimax探索を行うことで、反復的に最適経路を探索するアルゴリズムを開発し、連続音声への拡張が可能であることを示した。実際に、白色雑音付加の場合の離散数字音声について有効性を示すとともに、連続数字音声の認識実験でPlag-in MAP等の従来手法に対する大幅な優位性を示した。3. ビタビベイズ予測分類法、ビタビ探索Minimax法を用いて新聞記事文音声の認識実験を行い、文音声に対する開発方式の基本的有効性を確認した。

本研究旨在建立我们新提出的维特比贝叶斯预测分类，作为基于隐马尔可夫模型（HMM）的鲁棒语音识别方法，即使使用环境与学习环境不同，识别率也会略有下降。这是。该方法基于音素等模型由于环境差异而在HMM参数空间中扩展的假设。继去年之后，今年我们获得了以下结果，达到了预期的研究目标。 1.我们考虑在给定使用环境中的音频数据时，通过顺序估计更可能的后验概率密度函数来执行维特比贝叶斯预测分类。在从先验概率密度函数估计后验概率密度函数的过程中，存在一个问题，即概率密度分布中的项数呈指数增长，导致计算量爆炸，我们开发了一种方法来限制。通过选择分布到几个有代表性的分布。我们使用 60 个说话人的离散数字语音进行了添加白噪声和性别差异的实验，结果证实了该方法在识别性能和学习收敛速度方面相对于传统方法的有效性。 2.基于HMM模型由于学习环境和使用环境的差异而扩展的假设，提出了Minimax方法作为识别判断方法，但其存在难以扩展到连续语音的问题。为此，我们开发了一种算法，通过使用维特比搜索执行伪极小极大搜索来迭代搜索最佳路线，并表明可以将其扩展到连续语音。事实上，我们在添加白噪声时证明了其对于离散数字语音的有效性，并且在连续数字语音的识别实验中证明了其相对于 Plug-in MAP 等传统方法的显着优越性。 3.我们利用维特比贝叶斯预测分类方法和维特比搜索Minimax方法对报纸文章句子进行了识别实验，并证实了所开发的方法对于句子语音的基本有效性。

项目成果

期刊论文数量（0）

专著数量（0）

科研奖励数量（0）

会议论文数量（0）

专利数量（0）

江輝: "Robust Speech Recognition Based on Bayesian Prediction Approach" IEEE Transactions on Speech and Audio Processing. (発表予定). (1998)

Hiroshi Jiang：“基于贝叶斯预测方法的鲁棒语音识别”IEEE 语音和音频处理汇刊（即将发表）。

DOI：
发表时间：
期刊：
影响因子：
0
作者：
通讯作者：

江輝: "A minimax search algorithm for CDHMM based robust continuous speech recognition" Proc.International Conference on Spoken Language Processing. 2. 389-392 (1998)

Hiroshi Jiang：“基于 CDHMM 的鲁棒连续语音识别的极小极大搜索算法”Proc.国际口语处理会议 2. 389-392 (1998)。

DOI：
发表时间：
期刊：
影响因子：
0
作者：
通讯作者：

江輝: "Improving Viterbi Bayesian predictive classification via sequential Bayesian learning in robust speech recognition" Proc.IEEE International Conference on Acoustics,Speech,& Signal Processing. (発表予定). (1998)

Eki：“通过稳健语音识别中的顺序贝叶斯学习改进维特比贝叶斯预测分类”Proc。IEEE 国际声学、语音和信号处理会议（即将发表）。

DOI：
发表时间：
期刊：
影响因子：
0
作者：
通讯作者：

江輝: "Improving viterbi Bayesian predictive classification via sequential Bayesian learning in robust speech recognition" Proc.IEEE International Conference on Acoustics, Speech,& Signal Processing. 1. 77-80 (1998)

Hiroshi Jiang：“通过稳健语音识别中的顺序贝叶斯学习改进维特比贝叶斯预测分类”Proc。IEEE 国际声学、语音和信号处理会议 1. 77-80 (1998)。

DOI：
发表时间：
期刊：
影响因子：
0
作者：
通讯作者：

DOI：
{{ item.doi }}
发表时间：
{{ item.publish_year }}
期刊：
{{ item.journal_name }}
影响因子：
{{ item.factor }}
作者：
{{ item.authors }}
通讯作者：
{{ item.author }}

数据更新时间：{{ journalArticles.updateTime }}

作者：
{{ item.author }}

数据更新时间：{{ monograph.updateTime }}

作者：
{{ item.author }}

数据更新时间：{{ sciAawards.updateTime }}

作者：
{{ item.author }}

数据更新时间：{{ conferencePapers.updateTime }}

作者：
{{ item.author }}

数据更新时间：{{ patent.updateTime }}

広瀬啓吉其他文献

生成過程モデルに基づく母語話者と中国語話者の日本語朗読音声の基本周波数パターン

基于生成过程模型的母语者和汉语者日语阅读语音的基本频率模式

DOI：
发表时间：
2007
期刊：
影响因子：
0
作者：
平野宏子;広瀬啓吉;河合剛;顧文涛;峯松信明
通讯作者：
峯松信明

音調核モデルに基づく中国語F_0パターンの2段階生成

基于声调核模型的汉语F_0模式的两步生成

DOI：
发表时间：
2006
期刊：
電子情報通信学会技術研究報告(音声研究会) SP2005-159
影响因子：
0
作者：
Keikichi Hirose;Yasufumi Asano;Nobuaki Minematsu;Jinfu Ni;Wentao Gu;Keikichi Hirose;Qinghua Sun;Keikichi Hirose;越智景子;Keikichi Hirose;Jinfu Ni;Quinghua Sun;広瀬啓吉;浅野泰史;河村美由紀;孫慶華
通讯作者：
孫慶華

基本周波数パターン生成過程モデルのコーパスベースパラメータ自動抽出の評価

基于语料库的基频模式生成过程模型自动参数提取评价

DOI：
发表时间：
2006
期刊：
日本音響学会講演論文集 CD-ROM
影响因子：
0
作者：
Keikichi Hirose;Yasufumi Asano;Nobuaki Minematsu;Jinfu Ni;Wentao Gu;Keikichi Hirose;Qinghua Sun;Keikichi Hirose;越智景子;Keikichi Hirose;Jinfu Ni;Quinghua Sun;広瀬啓吉;浅野泰史;河村美由紀
通讯作者：
河村美由紀

種々の調子の音声合成のための韻律制御-感情音声合成の視点から-(招待講演)

各种声调语音合成的韵律控制——从情感语音合成的角度——（特邀报告）

DOI：
发表时间：
2006
期刊：
日本音響学会講演論文集 CD-ROM
影响因子：
0
作者：
Keikichi Hirose;Yasufumi Asano;Nobuaki Minematsu;Jinfu Ni;Wentao Gu;Keikichi Hirose;Qinghua Sun;Keikichi Hirose;越智景子;Keikichi Hirose;Jinfu Ni;Quinghua Sun;広瀬啓吉
通讯作者：
広瀬啓吉

文節単位での感情の程度を考慮した統計的韻律制御

考虑每个短语的情感程度的统计韵律控制

DOI：
发表时间：
2006
期刊：
日本音響学会講演論文集 CD-ROM
影响因子：
0
作者：
Keikichi Hirose;Yasufumi Asano;Nobuaki Minematsu;Jinfu Ni;Wentao Gu;Keikichi Hirose;Qinghua Sun;Keikichi Hirose;越智景子;Keikichi Hirose;Jinfu Ni;Quinghua Sun;広瀬啓吉;浅野泰史
通讯作者：
浅野泰史