識別的特徴抽出と確率モデルに基づく多様な環境・発声変動に頑健な音声認識

基于判别特征提取和概率模型的语音识别对不同环境和发声变化具有鲁棒性

基本信息

  • 批准号:
    15K16020
  • 负责人:
  • 金额:
    $ 2.5万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
  • 财政年份:
    2015
  • 资助国家:
    日本
  • 起止时间:
    2015-04-01 至 2017-03-31
  • 项目状态:
    已结题

项目摘要

本研究は、多様な発話環境・発話スタイル・発話アクセントの音声に対して、環境・発声変動を正規化しながら識別的特徴抽出と確率モデルを一体化する高精度な音声認識法を研究した。具体的には、平成27年度に、(1)多様な環境・発声様式による英語音声データベースの整備、(2)深層学習(Deep Learning)による環境・発声変動の除去・識別的特徴変換の同時最適化に基づく識別的特徴抽出、(3)多様な環境・発話変動などの音声認識への悪影響を軽減するPLDA(確率的線形判別分析)-HMMによる音声認識、を行った。平成28年度では、(1)雑音環境におけるマルチチャンネル特徴適応、(2)アクセントが強い非母国語話者の発話に頑健な音声認識、を行った。(1)について、悪環境下での音声認識率(単語正解精度)を従来の60%程度から実用化レベルの80%を超えた。(2)について、非母国語話者の音声認識の精度改善を目的とし、非母国語話者に対応した音響モデル学習の手法と、深層学習による特徴量変換の手法を提案した。非母国語話者の音声認識は低リソースの条件であるため、音響モデルとして部分空間混合ガウスモデル(SGMM)を利用した。さらにSGMMは異なる種類の音声を学習データとして複数用いた場合に、その差を考慮した学習が可能であるため、母国語話者の音声と非母国語話者の音声の両方を利用する学習方法(cross-accent SGMM)を提案した。また、深層学習を特徴量変換器として利用する手法を提案した。これらの手法について非母国語話者の音声認識実験において評価を行い、認識精度を大幅に改善した。
在这项研究中,我们研究了一种高度准确的语音识别方法,该方法集成了判别性特征提取和概率模型,同时对具有不同语音环境、语音风格和语音口音的语音的环境和声音波动进行标准化。具体来说,在2015财年,我们将(1)开发基于各种环境和声音风格的英语语音数据库,以及(2)利用深度学习同时优化环境和声音变化的去除以及判别性特征的转换。语音识别采用PLDA(概率线性判别分析)-HMM,减少各种环境和语音波动对语音识别的负面影响。在 2016 财年,我们执行了 (1) 在嘈杂环境中的多通道特征自适应,以及 (2) 对带有浓重口音的非母语人士的话语进行鲁棒语音识别。对于(1),恶劣环境下的语音识别率(单词正确率)从传统的60%左右提高到80%以上,达到实用水平。针对(2),我们提出了一种兼容非母语者的声学模型学习方法和一种利用深度学习的特征转换方法,旨在提高非母语者语音识别的准确性。由于非母语人士的语音识别需要较低的资源,因此我们使用子空间高斯混合模型(SGMM)作为声学模型。此外,当SGMM使用多种不同类型的语音作为训练数据时,可以进行考虑到它们之间差异的学习,因此它是一种同时使用母语者语音和非母语者语音的学习方法扬声器(跨口音 SGMM)。我们还提出了一种使用深度学习作为特征转换器的方法。我们在非母语人士的语音识别实验中评估了这些方法,识别精度得到了显着提高。

项目成果

期刊论文数量(12)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
DNN-Based Amplitude and Phase Feature Enhancement for Noise Robust Speaker Identification
  • DOI:
    10.21437/interspeech.2016-717
  • 发表时间:
    2016-09
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Zeyan Oo;Yuta Kawakami;Longbiao Wang;S. Nakagawa;Xiong Xiao;M. Iwahashi
  • 通讯作者:
    Zeyan Oo;Yuta Kawakami;Longbiao Wang;S. Nakagawa;Xiong Xiao;M. Iwahashi
Robust speech recognition using beamforming with adaptive microphone gains and multichannel noise reduction
  • DOI:
    10.1109/asru.2015.7404831
  • 发表时间:
    2015-12
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Shengkui Zhao;Xiong Xiao;Zhaofeng Zhang;Thi Ngoc Tho Nguyen;X. Zhong;Bo Ren;Longbiao Wang;Douglas L. Jones;Chng Eng Siong;Haizhou Li
  • 通讯作者:
    Shengkui Zhao;Xiong Xiao;Zhaofeng Zhang;Thi Ngoc Tho Nguyen;X. Zhong;Bo Ren;Longbiao Wang;Douglas L. Jones;Chng Eng Siong;Haizhou Li
南洋理工大学/Institute for Infocomm Research(シンガポール)
南洋理工大学/信息通信研究所(新加坡)
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
Distant-talking accent recognition by combining GMM and DNN
  • DOI:
    10.1007/s11042-015-2935-4
  • 发表时间:
    2015-09
  • 期刊:
  • 影响因子:
    3.6
  • 作者:
    Khomdet Phapatanaburi;Longbiao Wang;Ryota Sakagami;Zhaofeng Zhang;Ximin Li;M. Iwahashi
  • 通讯作者:
    Khomdet Phapatanaburi;Longbiao Wang;Ryota Sakagami;Zhaofeng Zhang;Ximin Li;M. Iwahashi
Relative phase information for detecting human speech and spoofed speech
  • DOI:
    10.21437/interspeech.2015-473
  • 发表时间:
    2015
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Longbiao Wang;Yohei Yoshida;Yuta Kawakami;S. Nakagawa
  • 通讯作者:
    Longbiao Wang;Yohei Yoshida;Yuta Kawakami;S. Nakagawa
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

王 龍標其他文献

王 龍標的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

相似国自然基金

基于Deep-learning的三江源区冰川监测动态识别技术研究
  • 批准号:
    51769027
  • 批准年份:
    2017
  • 资助金额:
    38.0 万元
  • 项目类别:
    地区科学基金项目
基于异构医学影像数据的深度挖掘技术及中枢神经系统重大疾病的精准预测
  • 批准号:
    61672236
  • 批准年份:
    2016
  • 资助金额:
    64.0 万元
  • 项目类别:
    面上项目
具有时序处理能力的Spiking-Deep Learning(脉冲深度学习)方法研究
  • 批准号:
    61573081
  • 批准年份:
    2015
  • 资助金额:
    64.0 万元
  • 项目类别:
    面上项目

相似海外基金

ハイパースペクトラルイメージングと深層学習を用いた皮膚病変鑑別システムの開発
利用高光谱成像和深度学习开发皮肤病变判别系统
  • 批准号:
    24K15777
  • 财政年份:
    2024
  • 资助金额:
    $ 2.5万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
深層学習を用いた超音波画像からのSPIDDM診断支援システムの開発
使用深度学习从超声图像开发 SPIDDM 诊断支持系统
  • 批准号:
    24K15775
  • 财政年份:
    2024
  • 资助金额:
    $ 2.5万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
深層学習を用いた拡散テンソル画像による腰椎疾患における疼痛の自動診断システム
基于深度学习的弥散张量图像腰椎疾病疼痛自动诊断系统
  • 批准号:
    24K15787
  • 财政年份:
    2024
  • 资助金额:
    $ 2.5万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
幾何学的深層学習による非線形力学系のグレーボックスモデル化技術の創出
使用几何深度学习创建非线性动力系统灰盒建模技术
  • 批准号:
    24K15105
  • 财政年份:
    2024
  • 资助金额:
    $ 2.5万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
アナログ回路に基づく進化計算手法による深層学習モデルの最適化
基于模拟电路的进化计算方法优化深度学习模型
  • 批准号:
    24K15115
  • 财政年份:
    2024
  • 资助金额:
    $ 2.5万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了