Speech Enhancement Network using Perceptual and Physical Mathematical Model

使用感知和物理数学模型的语音增强网络

基本信息

  • 批准号:
    21K11953
  • 负责人:
  • 金额:
    $ 1.91万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
  • 财政年份:
    2021
  • 资助国家:
    日本
  • 起止时间:
    2021-04-01 至 2024-03-31
  • 项目状态:
    已结题

项目摘要

本研究は、周囲の騒音レベルが高い環境において、音声のみを高精度に取り出す音声強調技術の開発に取り組むものである。音声強調は音声認識等のあらゆる音声処理の前処理で使われる重要な技術である。ただし、ネットワークの最適化がなされておらず、劣悪な雑音環境下で性能が低下していた。そこで本研究は、人間の発声メカニズム(物理モデル)と知覚メカニズム(知覚モデル)を数理的に深層学習と融合させ、ネットワークの構造および学習機構を改良することで、高精度な音声強調を達成する。2021年度に開発したソースフィルタ理論に基づく音声生成モデルをもとに,子音等の非線形成分を単純な正弦波の変換により表現することができることがわかった。劣悪環境下ではモデルパラメータの推定が非常に困難であるため,データセットの拡充が必須であり,様々な状況を想定した雑音を音声に加算することで入力に含まれるわずかな情報から音声構造を生成する枠組みを開発した。今後は本手法を論文にまとめ,公開すると共に,さらなる性能改善に向けてモデルの改良を行う。
本研究旨在开发一种语音增强技术,在环境噪声水平较高的环境中仅高精度地提取语音。语音增强是语音识别等所有语音处理预处理中使用的一项重要技术。然而,网络没有得到优化,在恶劣的嘈杂环境中性能会下降。因此,本研究旨在通过将人类发声机制(物理模型)和感知机制(感知模型)与深度学习进行数学融合,改进网络结构和学习机制,实现高精度的语音增强。基于2021年开发的基于源滤波器理论的语音生成模型,发现辅音等非线性成分可以通过简单的正弦波转换来表达。由于在恶劣环境下估计模型参数极其困难,因此必须扩展数据集,通过在假设各种情况的语音中添加噪声,可以从数据中包含的少量信息估计语音结构。我们开发了一个生成此输入的框架。未来我们会将这个方法总结成一篇论文,发表出来,并改进模型,进一步提高性能。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

杉浦 陽介其他文献

杉浦 陽介的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

相似海外基金

Impact of dose uncertainty of tracking irradiation in three-dimensional measurements using a polymer-gel dosimetry with deep learning
使用深度学习聚合物凝胶剂量测定进行三维测量中跟踪辐射的剂量不确定性的影响
  • 批准号:
    20K08097
  • 财政年份:
    2020
  • 资助金额:
    $ 1.91万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Radiation dose reduction in medical imaging exams by means of deep-learning-based virtual imaging technology
基于深度学习的虚拟成像技术减少医学影像检查中的辐射剂量
  • 批准号:
    18H02761
  • 财政年份:
    2018
  • 资助金额:
    $ 1.91万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Towards a Real-Time Speech Intelligibility Measurement Meter
迈向实时语音清晰度测量仪
  • 批准号:
    17K00223
  • 财政年份:
    2017
  • 资助金额:
    $ 1.91万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Constructing Foundations of Super Compressed Sensing and its Applications to Various Tomographic Imaging Modalities
构建超压缩感知基础及其在各种断层成像模式中的应用
  • 批准号:
    15K06103
  • 财政年份:
    2015
  • 资助金额:
    $ 1.91万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Activity recognition using wearable sensors for various applications
使用可穿戴传感器进行各种应用的活动识别
  • 批准号:
    15K00367
  • 财政年份:
    2015
  • 资助金额:
    $ 1.91万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了