ディープニューラルネットワークを用いる高効率適応学習の汎用的フレームワークの提案

提出使用深度神经网络进行高效自适应学习的通用框架

基本信息

  • 批准号:
    15J02418
  • 负责人:
  • 金额:
    $ 1.79万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
  • 财政年份:
    2015
  • 资助国家:
    日本
  • 起止时间:
    2015-04-24 至 2018-03-31
  • 项目状态:
    已结题

项目摘要

本研究課題は、ディープニューラルネットワーク(DNN)を用いた、対象問題を限定しない一般的な適応学習フレームワークの構築を目指すものである。本年度は、本研究課題のコンセプトである「DNNの内部に対する機能の集約・局在化」のアイデアを応用し、DNN自身に環境に対する適応能力を学習によって自動的に獲得させる方法論の提案を行った。提案手法では、本来ブラックボックスとして扱われるDNNの内部構造に対し、対象問題に対する事前知識(例えば、雑音下音声認識では雑音抑圧の機能が必要)を数式としてネットワークに組み込むことで、DNNの学習の方向性を誘導し、対象問題にとって望ましい機能をDNNの内部に獲得させることに成功した。本年度の研究成果として、大きく分けて以下の2つが挙げられる。(1)雑音抑圧機能を自動獲得するend-to-end音声認識モデル構造の提案。音声認識に関わる一連の手続きを、単一のDNNに基づいて構築するend-to-end音声認識モデルに対し、多チャンネル信号処理技術を数式としてネットワークの内部に組み込むことで、雑音抑圧機能を学習によって自動的に獲得するネットワーク構造の提案を行った。評価実験の結果、提案したend-to-end音声認識モデルは、雑音環境に対する高い適応能力を獲得し、雑音下音声認識において従来手法よりも高い認識性能を発揮することが確認された。(2)提案したend-to-end音声認識モデルに対するモデル適応技術の有効性の検証。本年度に提案したend-to-end音声認識モデルに対し、昨年度までに研究していたモデル適応技術を組み合わせることで、更なる認識性能の向上を得ることが出来ないか、評価実験を通してその有効性の検証を行った。評価実験の結果、提案手法を組み合わせることで、end-to-end音声認識モデルは更なる認識性能の向上を獲得することが確認された。
这项研究是建立一个一般的自适应学习框架,该框架不会使用深神网络(DNN)限制目标问题。在这个财政年度,我们应用了“ DNN内部功能的整合和本地化”的想法,这是本研究的概念,并提出了一种自动通过学习来适应环境的方法。在提案方法中,DNN通过对DNN内部结构进行预知(例如,在噪声语音识别中的噪声抑制函数),以供DNN的内部结构进行学习,该结构最初被视为我们成功的黑匣子引导方向并获取DNN内目标问题的所需功能。以下两个大致分为今年的研究结果。 (1)端到端语音识别模型结构的建议自动获得噪声抑制函数。通过将多渠道信号处理技术纳入网络,通过将多渠道信号处理技术作为基于单个DNN构建的端到端音频识别模型的公式来了解与语音识别有关的一系列过程自动获取的网络结构。通过评估实验,已确认所提出的端到端语音识别模型具有与噪声中常规方法相比,对噪声环境具有很高的自适应能力,并且表现出更高的识别性能。 (2)验证拟议的端到端音频识别模型的模型适应技术的有效性。今年提出的端到端语音识别模型将无法通过结合去年研究的模型适应技术来进一步提高识别性能,并通过评估实验进行了效力。作为评估实验的结果,已经证实,建议方法的组合将进一步改善识别性能模型。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Speaker Adaptive Training Localizing Speaker Modules in DNN for Hybrid DNN-HMM Speech Recognizers
扬声器自适应训练 在 DNN 中为混合 DNN-HMM 语音识别器定位扬声器模块
  • DOI:
    10.1587/transinf.2016slp0010
  • 发表时间:
    2016
  • 期刊:
  • 影响因子:
    0.7
  • 作者:
    Tsubasa Ochiai;Shigeki Matsuda;Hideyuki Watanabe;Xugang Lu;Chiori Hori;Hisashi Kawai;Shigeru Katagiri
  • 通讯作者:
    Shigeru Katagiri
Multichannel End-to-end Speech Recognition
  • DOI:
  • 发表时间:
    2017-03
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Tsubasa Ochiai;Shinji Watanabe;Takaaki Hori;J. Hershey
  • 通讯作者:
    Tsubasa Ochiai;Shinji Watanabe;Takaaki Hori;J. Hershey
BOTTLENECK LINEAR TRANSFORMATION NETWORK ADAPTATION FOR SPEAKER ADAPTIVE TRAINING-BASED HYBRID DNN-HMM SPEECH RECOGNIZER
基于说话人自适应训练的混合 DNN-HMM 语音识别器的瓶颈线性变换网络自适应
  • DOI:
  • 发表时间:
    2016
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Tsubasa Ochiai;Shigeki Matsuda;Hideyuki Watanabe;Xugang Lu;Hisashi Kawai;and Shigeru Katagiri
  • 通讯作者:
    and Shigeru Katagiri
Unified Architecture for Multichannel End-to-End Speech Recognition With Neural Beamforming
  • DOI:
    10.1109/jstsp.2017.2764276
  • 发表时间:
    2017-10
  • 期刊:
  • 影响因子:
    7.5
  • 作者:
    Tsubasa Ochiai;Shinji Watanabe;Takaaki Hori;J. Hershey;Xiong Xiao
  • 通讯作者:
    Tsubasa Ochiai;Shinji Watanabe;Takaaki Hori;J. Hershey;Xiong Xiao
線形変換ネットワークを用いて話者正規化学習されたDNNのためのボトルネック話者適応法の提案
提出使用线性变换网络通过说话人归一化训练的 DNN 的瓶颈说话人自适应方法
  • DOI:
  • 发表时间:
    2016
  • 期刊:
  • 影响因子:
    0
  • 作者:
    落合翼;松田繁樹;渡辺秀行;Xugang Lu;河井恒;片桐滋
  • 通讯作者:
    片桐滋
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

落合 翼其他文献

落合 翼的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了