モデルの広がりを考慮した頑健な音声認識手法の研究

考虑模型扩散的鲁棒语音识别方法研究

基本信息

  • 批准号:
    09878065
  • 负责人:
  • 金额:
    $ 1.15万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Exploratory Research
  • 财政年份:
    1997
  • 资助国家:
    日本
  • 起止时间:
    1997 至 1998
  • 项目状态:
    已结题

项目摘要

本研究は、隠れマルコフモデル(HMM)に基づく音声認識において、使用環境が学習環境と異なる場合にも認識率の低下が小さな頑健な手法として我々が新しく提案したビタビベイズ予測分類等の確立を図るものである。この手法は、環境の違いにより、音素等のモデルがHMMパラメータ空間において広がりを持つと考えることを基本とするもので、昨年度の引き続き、本年度は下記の成果を得、所期の研究目標を達成した。1. 使用環境における音声データが与えられた時、順次により確からしい事後確率密度関数を推定してビタビベイズ予測分類を行うことを検討した。事前確率密度関数から事後確率密度関数を推定する過程において、確率密度の分布の項数がべき乗で増大して計算量の爆発を招くという問題があるが、これに対し、N-ベストビタビ経路の選択によって数個の代表的な分布に限定する手法を開発した。60名の話者による離散数字音声を用い、白色雑音付加と性差の場合について実験を行った結果、提案方式の従来方式に対する有効性を、認識性能と学習の収束速度の両面について確認した。2. 学習環境と使用環境との違いによるHMMモデルの広がりを前提とした認識判定手法として、従来よりMinimax法が提案されているが、連続音声への拡張が困難という問題点があった。これに対し、ビタビ探索をにより擬似Minimax探索を行うことで、反復的に最適経路を探索するアルゴリズムを開発し、連続音声への拡張が可能であることを示した。実際に、白色雑音付加の場合の離散数字音声について有効性を示すとともに、連続数字音声の認識実験でPlag-in MAP等の従来手法に対する大幅な優位性を示した。3. ビタビベイズ予測分類法、ビタビ探索Minimax法を用いて新聞記事文音声の認識実験を行い、文音声に対する開発方式の基本的有効性を確認した。
本研究旨在建立我们新提出的维特比贝叶斯预测分类,作为基于隐马尔可夫模型(HMM)的鲁棒语音识别方法,即使使用环境与学习环境不同,识别率也会略有下降。 这是。该方法基于音素等模型由于环境差异而在HMM参数空间中扩展的假设。继去年之后,今年我们获得了以下结果,达到了预期的研究目标。 1.我们考虑在给定使用环境中的音频数据时,通过顺序估计更可能的后验概率密度函数来执行维特比贝叶斯预测分类。在从先验概率密度函数估计后验概率密度函数的过程中,存在一个问题,即概率密度分布中的项数呈指数增长,导致计算量爆炸,我们开发了一种方法来限制。通过选择分布到几个有代表性的分布。我们使用 60 个说话人的离散数字语音进行了添加白噪声和性别差异的实验,结果证实了该方法在识别性能和学习收敛速度方面相对于传统方法的有效性。 2.基于HMM模型由于学习环境和使用环境的差异而扩展的假设,提出了Minimax方法作为识别判断方法,但其存在难以扩展到连续语音的问题。为此,我们开发了一种算法,通过使用维特比搜索执行伪极小极大搜索来迭代搜索最佳路线,并表明可以将其扩展到连续语音。事实上,我们在添加白噪声时证明了其对于离散数字语音的有效性,并且在连续数字语音的识别实验中证明了其相对于 Plug-in MAP 等传统方法的显着优越性。 3.我们利用维特比贝叶斯预测分类方法和维特比搜索Minimax方法对报纸文章句子进行了识别实验,并证实了所开发的方法对于句子语音的基本有效性。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
江 輝: "Robust Speech Recognition Based on Bayesian Prediction Approach" IEEE Transactions on Speech and Audio Processing. (発表予定). (1998)
Hiroshi Jiang:“基于贝叶斯预测方法的鲁棒语音识别”IEEE 语音和音频处理汇刊(即将发表)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
江 輝: "A minimax search algorithm for CDHMM based robust continuous speech recognition" Proc.International Conference on Spoken Language Processing. 2. 389-392 (1998)
Hiroshi Jiang:“基于 CDHMM 的鲁棒连续语音识别的极小极大搜索算法”Proc.国际口语处理会议 2. 389-392 (1998)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
江輝: "Improving Viterbi Bayesian predictive classification via sequential Bayesian learning in robust speech recognition" Proc.IEEE International Conference on Acoustics,Speech,& Signal Processing. (発表予定). (1998)
Eki:“通过稳健语音识别中的顺序贝叶斯学习改进维特比贝叶斯预测分类”Proc。IEEE 国际声学、语音和信号处理会议(即将发表)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
江 輝: "Improving viterbi Bayesian predictive classification via sequential Bayesian learning in robust speech recognition" Proc.IEEE International Conference on Acoustics, Speech,& Signal Processing. 1. 77-80 (1998)
Hiroshi Jiang:“通过稳健语音识别中的顺序贝叶斯学习改进维特比贝叶斯预测分类”Proc。IEEE 国际声学、语音和信号处理会议 1. 77-80 (1998)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

広瀬 啓吉其他文献

生成過程モデルに基づく母語話者と中国語話者の日本語朗読音声の基本周波数パターン
基于生成过程模型的母语者和汉语者日语阅读语音的基本频率模式
  • DOI:
  • 发表时间:
    2007
  • 期刊:
  • 影响因子:
    0
  • 作者:
    平野 宏子;広瀬 啓吉;河合 剛;顧文 涛;峯松 信明
  • 通讯作者:
    峯松 信明
音調核モデルに基づく中国語F_0パターンの2段階生成
基于声调核模型的汉语F_0模式的两步生成
  • DOI:
  • 发表时间:
    2006
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Keikichi Hirose;Yasufumi Asano;Nobuaki Minematsu;Jinfu Ni;Wentao Gu;Keikichi Hirose;Qinghua Sun;Keikichi Hirose;越智景子;Keikichi Hirose;Jinfu Ni;Quinghua Sun;広瀬 啓吉;浅野 泰史;河村 美由紀;孫慶華
  • 通讯作者:
    孫慶華
基本周波数パターン生成過程モデルのコーパスベースパラメータ自動抽出の評価
基于语料库的基频模式生成过程模型自动参数提取评价
  • DOI:
  • 发表时间:
    2006
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Keikichi Hirose;Yasufumi Asano;Nobuaki Minematsu;Jinfu Ni;Wentao Gu;Keikichi Hirose;Qinghua Sun;Keikichi Hirose;越智景子;Keikichi Hirose;Jinfu Ni;Quinghua Sun;広瀬 啓吉;浅野 泰史;河村 美由紀
  • 通讯作者:
    河村 美由紀
種々の調子の音声合成のための韻律制御-感情音声合成の視点から-(招待講演)
各种声调语音合成的韵律控制——从情感语音合成的角度——(特邀报告)
  • DOI:
  • 发表时间:
    2006
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Keikichi Hirose;Yasufumi Asano;Nobuaki Minematsu;Jinfu Ni;Wentao Gu;Keikichi Hirose;Qinghua Sun;Keikichi Hirose;越智景子;Keikichi Hirose;Jinfu Ni;Quinghua Sun;広瀬 啓吉
  • 通讯作者:
    広瀬 啓吉
文節単位での感情の程度を考慮した統計的韻律制御
考虑每个短语的情感程度的统计韵律控制
  • DOI:
  • 发表时间:
    2006
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Keikichi Hirose;Yasufumi Asano;Nobuaki Minematsu;Jinfu Ni;Wentao Gu;Keikichi Hirose;Qinghua Sun;Keikichi Hirose;越智景子;Keikichi Hirose;Jinfu Ni;Quinghua Sun;広瀬 啓吉;浅野 泰史
  • 通讯作者:
    浅野 泰史

広瀬 啓吉的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('広瀬 啓吉', 18)}}的其他基金

認知モデルと常識ベースに基づく情動を含む音声コミュニケーション
语音通信,包括基于认知模型和常识的情感
  • 批准号:
    08F08049
  • 财政年份:
    2008
  • 资助金额:
    $ 1.15万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
劣条件下の混合音響信号の分離とその音声認識への利用
恶劣条件下混合声信号的分离及其在语音识别中的应用
  • 批准号:
    06F06099
  • 财政年份:
    2006
  • 资助金额:
    $ 1.15万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
フィンランド人日本語学習者による日本語語い音調の韻律研究
芬兰日语学习者对日语声调的韵律研究
  • 批准号:
    06F05756
  • 财政年份:
    2005
  • 资助金额:
    $ 1.15万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
フィンランド人日本語学習者による日本語語い音調の韻律研究
芬兰日语学习者对日语声调的韵律研究
  • 批准号:
    05F05756
  • 财政年份:
    2005
  • 资助金额:
    $ 1.15万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
文節境界を考慮した統計的言語モデルの高度化と音声認識への利用
推进考虑子句边界及其在语音识别中的使用的统计语言模型
  • 批准号:
    16650034
  • 财政年份:
    2004
  • 资助金额:
    $ 1.15万
  • 项目类别:
    Grant-in-Aid for Exploratory Research
中国語基本周波数パターンの分析、定式化と合成手法の開発
中国基频模式分析、合成方法的制定和发展
  • 批准号:
    04F04035
  • 财政年份:
    2004
  • 资助金额:
    $ 1.15万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
高品質音声合成のための韻律制御
高质量语音合成的韵律控制
  • 批准号:
    12132202
  • 财政年份:
    2000
  • 资助金额:
    $ 1.15万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
韻律に着目した音声言語情報処理の高度化
以韵律为中心的口语信息处理的复杂性
  • 批准号:
    12132101
  • 财政年份:
    2000
  • 资助金额:
    $ 1.15万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
モーラ遷移確率モデルによる韻律の表現と音声認識への利用に関する研究
基于mora转移概率模型的韵律表达及其在语音识别中的应用研究
  • 批准号:
    11878058
  • 财政年份:
    1999
  • 资助金额:
    $ 1.15万
  • 项目类别:
    Grant-in-Aid for Exploratory Research
韻律に着目した音声言語情報処理の高度化に関する調査研究
以韵律为中心的口语信息处理进展研究
  • 批准号:
    10898014
  • 财政年份:
    1998
  • 资助金额:
    $ 1.15万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)

相似海外基金

Query-by-Singing music information Retrieval system supporting various singing style
按歌查询支持多种演唱风格的音乐信息检索系统
  • 批准号:
    18K11321
  • 财政年份:
    2018
  • 资助金额:
    $ 1.15万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
識別的特徴抽出と確率モデルに基づく多様な環境・発声変動に頑健な音声認識
基于判别特征提取和概率模型的语音识别对不同环境和发声变化具有鲁棒性
  • 批准号:
    15K16020
  • 财政年份:
    2015
  • 资助金额:
    $ 1.15万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
頑健な組込み型音声認識技術の開発
开发鲁棒的嵌入式语音识别技术
  • 批准号:
    22500163
  • 财政年份:
    2010
  • 资助金额:
    $ 1.15万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
頑健な音声認識のための正準化に関する研究
鲁棒语音识别标准化研究
  • 批准号:
    07F07080
  • 财政年份:
    2007
  • 资助金额:
    $ 1.15万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
話し言葉音声認識のための発話速度変動に頑健な音響モデルの開発
开发对语速波动具有鲁棒性的声学模型,用于口语语音识别
  • 批准号:
    16700171
  • 财政年份:
    2004
  • 资助金额:
    $ 1.15万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了