話し言葉音声認識のための発話速度変動に頑健な音響モデルの開発

开发对语速波动具有鲁棒性的声学模型,用于口语语音识别

基本信息

  • 批准号:
    16700171
  • 负责人:
  • 金额:
    $ 2.18万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
  • 财政年份:
    2004
  • 资助国家:
    日本
  • 起止时间:
    2004 至 2005
  • 项目状态:
    已结题

项目摘要

本研究は、話し言葉音声における発話速度変動に頑健な音声認識を目指し、話速変化による認識率低下の抑制について、大きく分けて1.話速によるデータクラスタリングでの話速別モデルの構築。各話速別モデルを融合したモデル(HMM/BNモデル、マルチパスモデル)による各話速に対する評価。2.分析周期を変更したデータによる局所話速に対応したモデルの構築。分析周期を変更した複数モデルの認識結果統合による認識率改善手法。の2つの手法により検討を行なった。データクラスタリング話速別モデルによる検討では以下のような結果を得た。a.話速別モデルを用いることで話速に対応した認識精度が得られる。HMMパラメータの話速モデル化の調査では、話速別モデルのHMMパラメータのうち、特にガウス分布が話速変化をモデル化していることが分かった。b.種々の話速別モデルの融合モデルの認識精度は各話速別モデルを単独で用いる場合の精度を上回っており、融合モデルによる効果は観られたが、ほぼ全話速に対して単純なHMMより劣る結果であった。話速別にデータを分割してしまうことによる学習データ量減少の問題が大きいと考えられる。分析周期変更モデルによる検討では以下のよう塗結果を得た。a.分析周期を従来の半分としたモデルで、従来の分析周期のモデルと比べて、話速の速い場合において認識精度が改善できた。一方で、分析周期を短くすることにより、話速が遅い場合に挿入誤りを増加させる結果となり、話速の遅い場合においては精度が低下した。b.分析周期が異なるモデルの認識結果を単語信頼度を利用したROVER法により統合することで単独システムの結果に比べトータルでの認識精度を改善することができた。
本研究旨在实现对口语中的语速波动具有鲁棒性的语音识别,并旨在抑制由于语速变化而导致的识别率下降。本研究的要点是:1.语速的构建-使用基于语速的数据聚类的具体模型。使用组合了每个故事速度模型的模型(HMM/BN 模型、多路径模型)来评估每个故事速度。 2.利用不同分析周期的数据构建对应于本地语速的模型。通过整合不同分析周期的多个模型的识别结果来提高识别率的方法。该研究使用两种方法进行。在使用数据聚类语速模型的研究中,我们获得了以下结果。 a.通过使用特定于语音速度的模型可以获得与语音速度相对应的识别精度。在对HMM参数的语速建模的研究中,发现在语速特定模型的HMM参数中,特定的高斯分布模型对语速的变化进行模型。 b.各种语音速度模型的融合模型的识别精度超过了单独使用每种语音速度模型时的精度,并且虽然观察到融合模型的效果,但是对于几乎所有语音速度来说结果较差。到一个普通的 HMM 。一个主要问题被认为是由于将数据除以语音速度而导致学习数据量的减少。在使用分析周期变化模型的研究中,获得了以下结果。 a. 与之前的模型相比,分析周期缩短了一半,与传统分析周期的模型相比,提高了高速说话时的识别精度。另一方面,缩短分析周期会导致语速较慢时插入错误增加,而语速较慢时准确度下降。 b.通过使用使用单词可靠性的ROVER方法整合具有不同分析周期的模型的识别结果,与单个系统的结果相比,我们能够提高总体识别精度。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

山本 一公其他文献

超高齢者コーパスとS-JNAS を用いた高齢者音声の音響的特徴の分析
使用高龄语料库和 S-JNAS 分析老年人语音的声学特征
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    福田 芽衣子;杉山 雅和;西村 良太;入部 百合絵;山本 一公;北岡 教英
  • 通讯作者:
    北岡 教英
超高齢者コーパスとS-JNAS を用いた高齢者音声の音響的特徴の分析
使用高龄语料库和 S-JNAS 分析老年人语音的声学特征
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    福田 芽衣子;杉山 雅和;西村 良太;入部 百合絵;山本 一公;北岡 教英
  • 通讯作者:
    北岡 教英
超高齢者コーパスとS-JNASを用いた高齢者音声の音響的特徴の分析
使用高龄老人语料库和 S-JNAS 分析老年人语音的声学特征
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    福田 芽衣子;杉山 雅和;西村 良太;入部 百合絵;山本 一公;北岡 教英
  • 通讯作者:
    北岡 教英
超高齢者コーパスとS-JNASを用いた高齢者音声の音響的特徴の分析
使用高龄老人语料库和 S-JNAS 分析老年人语音的声学特征
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    福田 芽衣子;杉山 雅和;西村 良太;入部 百合絵;山本 一公;北岡 教英
  • 通讯作者:
    北岡 教英

山本 一公的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('山本 一公', 18)}}的其他基金

Development of end-to-end speech recognition techniques for super-elderly that can deal with the cause of recognition errors
开发针对高龄老人的端到端语音识别技术,可处理识别错误的原因
  • 批准号:
    22K12084
  • 财政年份:
    2022
  • 资助金额:
    $ 2.18万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
音声認識のための動的特徴を効果的に用いる隠れマルコフモデルに関する研究
有效利用动态特征进行语音识别的隐马尔可夫模型研究
  • 批准号:
    13780274
  • 财政年份:
    2001
  • 资助金额:
    $ 2.18万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)

相似海外基金

筋電と筋音を用いた皮膚インピーダンス変化の影響を受けない動作意図分類モデルの開発
利用肌电和心肌音开发不受皮肤阻抗变化影响的运动意图分类模型
  • 批准号:
    24KJ2014
  • 财政年份:
    2024
  • 资助金额:
    $ 2.18万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
地域生活圏における総合騒音に与える航空機騒音の影響解明と評価指標モデルの構築
阐明飞机噪声对当地生活区整体噪声的影响并构建评价指标模型
  • 批准号:
    24K07794
  • 财政年份:
    2024
  • 资助金额:
    $ 2.18万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
IT技術を活用した演奏指導のための「動作・音・評価」メカニズムの解明
利用IT技术阐释表演教学的“动、声、评”机制
  • 批准号:
    23K02730
  • 财政年份:
    2023
  • 资助金额:
    $ 2.18万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Development of Iterative Interference Cancellation for MIMO-OFDM Underwater Acoustic Communications
MIMO-OFDM 水声通信迭代干扰消除的发展
  • 批准号:
    23K03850
  • 财政年份:
    2023
  • 资助金额:
    $ 2.18万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
可能な限りインパルス応答を実測しない逆システム型音場制御を探る
探索尽可能不实际测量脉冲响应的逆系统式声场控制
  • 批准号:
    22K12108
  • 财政年份:
    2022
  • 资助金额:
    $ 2.18万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了