話し言葉音声認識のための発話速度変動に頑健な音響モデルの開発

开发对语速波动具有鲁棒性的声学模型,用于口语语音识别

基本信息

  • 批准号:
    16700171
  • 负责人:
  • 金额:
    $ 2.18万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
  • 财政年份:
    2004
  • 资助国家:
    日本
  • 起止时间:
    2004 至 2005
  • 项目状态:
    已结题

项目摘要

本研究は、話し言葉音声における発話速度変動に頑健な音声認識を目指し、話速変化による認識率低下の抑制について、大きく分けて1.話速によるデータクラスタリングでの話速別モデルの構築。各話速別モデルを融合したモデル(HMM/BNモデル、マルチパスモデル)による各話速に対する評価。2.分析周期を変更したデータによる局所話速に対応したモデルの構築。分析周期を変更した複数モデルの認識結果統合による認識率改善手法。の2つの手法により検討を行なった。データクラスタリング話速別モデルによる検討では以下のような結果を得た。a.話速別モデルを用いることで話速に対応した認識精度が得られる。HMMパラメータの話速モデル化の調査では、話速別モデルのHMMパラメータのうち、特にガウス分布が話速変化をモデル化していることが分かった。b.種々の話速別モデルの融合モデルの認識精度は各話速別モデルを単独で用いる場合の精度を上回っており、融合モデルによる効果は観られたが、ほぼ全話速に対して単純なHMMより劣る結果であった。話速別にデータを分割してしまうことによる学習データ量減少の問題が大きいと考えられる。分析周期変更モデルによる検討では以下のよう塗結果を得た。a.分析周期を従来の半分としたモデルで、従来の分析周期のモデルと比べて、話速の速い場合において認識精度が改善できた。一方で、分析周期を短くすることにより、話速が遅い場合に挿入誤りを増加させる結果となり、話速の遅い場合においては精度が低下した。b.分析周期が異なるモデルの認識結果を単語信頼度を利用したROVER法により統合することで単独システムの結果に比べトータルでの認識精度を改善することができた。
本研究旨在实现对口语中的语速波动具有鲁棒性的语音识别,并旨在抑制由于语速变化而导致的识别率下降。本研究的要点是:1.语速的构建-使用基于语速的数据聚类的具体模型。使用组合了每个故事速度模型的模型(HMM/BN 模型、多路径模型)来评估每个故事速度。 2.利用不同分析周期的数据构建对应于本地语速的模型。通过整合不同分析周期的多个模型的识别结果来提高识别率的方法。该研究使用两种方法进行。在使用数据聚类语速模型的研究中,我们获得了以下结果。 a.通过使用特定于语音速度的模型可以获得与语音速度相对应的识别精度。在对HMM参数的语速建模的研究中,发现在语速特定模型的HMM参数中,特定的高斯分布模型对语速的变化进行模型。 b.各种语音速度模型的融合模型的识别精度超过了单独使用每种语音速度模型时的精度,并且虽然观察到融合模型的效果,但是对于几乎所有语音速度来说结果较差。到一个普通的 HMM 。一个主要问题被认为是由于将数据除以语音速度而导致学习数据量的减少。在使用分析周期变化模型的研究中,获得了以下结果。 a. 与之前的模型相比,分析周期缩短了一半,与传统分析周期的模型相比,提高了高速说话时的识别精度。另一方面,缩短分析周期会导致语速较慢时插入错误增加,而语速较慢时准确度下降。 b.通过使用使用单词可靠性的ROVER方法整合具有不同分析周期的模型的识别结果,与单个系统的结果相比,我们能够提高总体识别精度。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

山本 一公其他文献

超高齢者音声コーパスEARSの構築と音声認識へ利用の予備的検討
高龄语音语料库EARS的构建及其用于语音识别的初步研究
  • DOI:
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    0
  • 作者:
    福田 芽衣子;入部 百合絵;西崎 博光;山本 一公;西村 良太;北岡 教英
  • 通讯作者:
    北岡 教英
残響下音声認識評価基盤(CENSREC-4)の構築
混响语音识别评估平台(CENSREC-4)的构建
  • DOI:
  • 发表时间:
    2008
  • 期刊:
  • 影响因子:
    0
  • 作者:
    西浦 敬信;中山 雅人;傳田 遊亀;北岡 教英;山本 一公;山田 武志;藤本 雅清;柘植 覚;宮島 千代美;滝口 哲也;田村 哲嗣;小川 哲司;松田 繁樹;黒岩 眞吾;武田 一哉;中村 哲
  • 通讯作者:
    中村 哲

山本 一公的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('山本 一公', 18)}}的其他基金

Development of end-to-end speech recognition techniques for super-elderly that can deal with the cause of recognition errors
开发针对高龄老人的端到端语音识别技术,可处理识别错误的原因
  • 批准号:
    22K12084
  • 财政年份:
    2022
  • 资助金额:
    $ 2.18万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
音声認識のための動的特徴を効果的に用いる隠れマルコフモデルに関する研究
有效利用动态特征进行语音识别的隐马尔可夫模型研究
  • 批准号:
    13780274
  • 财政年份:
    2001
  • 资助金额:
    $ 2.18万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)

相似海外基金

音響信号の知識を暗黙的に反映した音符列を対象とした楽器分類モデルの構築
为隐式反映声学信号知识的音符序列构建乐器分类模型
  • 批准号:
    24K20798
  • 财政年份:
    2024
  • 资助金额:
    $ 2.18万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
海洋物理モデルと連携したWave GliderによるGNSS-音響観測の高度化
使用波浪滑翔机结合海洋物理模型推进 GNSS 声学观测
  • 批准号:
    24K00723
  • 财政年份:
    2024
  • 资助金额:
    $ 2.18万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
地域生活圏における総合騒音に与える航空機騒音の影響解明と評価指標モデルの構築
阐明飞机噪声对当地生活区整体噪声的影响并构建评价指标模型
  • 批准号:
    24K07794
  • 财政年份:
    2024
  • 资助金额:
    $ 2.18万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
筋電と筋音を用いた皮膚インピーダンス変化の影響を受けない動作意図分類モデルの開発
利用肌电和心肌音开发不受皮肤阻抗变化影响的运动意图分类模型
  • 批准号:
    24KJ2014
  • 财政年份:
    2024
  • 资助金额:
    $ 2.18万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
サウンド/メディアアートに供する音響ビッグデータアーカイブ「京都モデル」の構築
声音/媒体艺术“京都模式”声学大数据档案的构建
  • 批准号:
    23K17496
  • 财政年份:
    2023
  • 资助金额:
    $ 2.18万
  • 项目类别:
    Grant-in-Aid for Challenging Research (Exploratory)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了