音響信号の振幅位相関係を考慮した複素スペクトル領域音声強調と応用

考虑声信号幅相关系的复谱域语音增强及其应用

基本信息

项目摘要

本研究の目的は,音響信号の周波数解析によって得られる振幅スペクトルと位相スペクトルの関連性を考慮した音響信号強調手法の基礎理論構築とその他の音響信号処理への応用である.従来の研究では,音響信号の時間周波数解析に基づき,振幅・位相という二つのスペクトルの挙動を利用して各種信号処理の理論・アルゴリズムの構築がなされる.本研究ではこれら二つのスペクトルに深い関連があることに着目した信号処理の理論構築と実験を行うものである.第三年度では,第二年度で行った時間・周波数領域における振幅と位相の統計的挙動の関係性を深層学習に応用させた取り組みを発展させた.本取り組みでは,深層学習と典型的な最適化手法とを組み合わせることで,最新の従来研究よりも振幅スペクトを利用した位相スペクトルの推定性能が改善することを客観指標と被験者を募って行った聴取実験の両結果から確認し,国内会議(日本音響学会秋季研究発表会)にて発表した.さらに,この結果をまとめ,音響信号処理のトップジャーナルであるIEEE Trans. ASLPに投稿し,査読中である.また,深層学習への応用という点において,別の観点からの研究を展開させた.具体的には,位相スペクトルの符号不確定性という問題に新たに着目し,定式化を行うことで,深層学習に適用し解決を行った.不確定性問題を深層学習の学習に取り込むことで,位相スペクトルの推定性能に改善が見られ,この問題提起が有用であることを示した.この結果は国際学会APSIPAへ投稿し,採択された.
本研究的目的是构建考虑声信号频率分析获得的幅度谱和相位谱之间关系的声信号增强方法的基本理论,并将其应用于其他声信号处理。在传统研究中,基于声信号的时频分析,利用两个频谱(幅度和相位)的行为构建了各种信号处理理论和算法。在本研究中,我们进行信号处理的理论构建和实验,重点关注这两个频谱之间的深层关系。第三年,我们扩展了第二年所做的努力,将时域和频域中幅度和相位的统计行为之间的关系应用到深度学习中。在这个项目中,我们证明了通过结合深度学习和典型的优化方法,与最新的传统研究相比,使用幅度谱进行相位谱估计的性能得到了提高,这在国内会议(秋季)上得到了实验结果的证实。日本声学学会的研究报告)。此外,我们还对结果进行了总结并提交给声学信号处理领域的顶级期刊IEEE ASLP,目前正在接受同行评审。此外,我们在深度学习的应用方面也从不同的角度开展了研究。具体来说,我们新近关注了相位谱中的符号不​​确定性问题,将其表述出来,并将其应用于深度学习来解决该问题。通过将不确定性问题纳入深度学习,提高了相位谱的估计性能,表明该问题是有用的。成果提交至国际学术会议APSIPA并被接受。

项目成果

期刊论文数量(7)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
円周上の音場補間を利用した移動音源のステアリングベクトル推定
使用圆周声场插值估计运动声源的转向矢量
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    若林佑幸;山岡洸瑛;小野順貴
  • 通讯作者:
    小野順貴
Analysis of derivative of instantaneous frequency and its application to voice activity detection
瞬时频率导数分析及其在语音活动检测中的应用
  • DOI:
    10.1016/j.apacoust.2021.108116
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    3.4
  • 作者:
    Binh Thien NGUYEN; Yukoh WAKABAYASHI; Kenta IWAI;Takanobu NISHIURA
  • 通讯作者:
    Takanobu NISHIURA
研究者のWebページ
研究人员的网页
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
Two-stage phase reconstruction using inter-frequency phase difference
利用频间相位差的两级相位重构
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Thien Nguyen Binh;Wakabayashi Yukoh;Yuting Geng;Iwai Kenta;Nishiura Takanobu
  • 通讯作者:
    Nishiura Takanobu
Two-stage phase reconstruction using DNN and von Mises distribution-based maximum likelihood
使用 DNN 和基于 von Mises 分布的最大似然进行两阶段相位重建
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Binh Thien Nguyen; Yukoh Wakabayashi; Kenta Iwai; Takanobu Nishiura
  • 通讯作者:
    Takanobu Nishiura
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

若林 佑幸其他文献

円状マイクロホンアレイを利用した音場補間によるステアリングベクトル補間への応用
圆形麦克风阵列声场插值在转向矢量插值中的应用
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    若林 佑幸; 山岡 洸瑛; 小野 順貴
  • 通讯作者:
    小野 順貴
回転移動に頑健なアレイ信号処理のための音場の補間に関する一検討
旋转鲁棒阵列信号处理的声场插值研究
  • DOI:
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    0
  • 作者:
    若林 佑幸; 小野 順貴
  • 通讯作者:
    小野 順貴
位相スペクトルを利用した振幅スペクトル推定による音声強調の検討
利用相位谱估计幅度谱的语音增强研究
  • DOI:
  • 发表时间:
    2018
  • 期刊:
  • 影响因子:
    0
  • 作者:
    若林 佑幸;中山 雅人;西浦 敬信
  • 通讯作者:
    西浦 敬信
ニューラルネットワークを用いた走行音による交通車両検出
基于神经网络行驶声的交通车辆检测
  • DOI:
  • 发表时间:
    2018
  • 期刊:
  • 影响因子:
    0
  • 作者:
    篠原 拓実;若林 佑幸; シャイブラー ロビン; 小野 順貴; 相澤 範明; 原田 秀一; 中川 浩
  • 通讯作者:
    中川 浩
視聴覚情報の統合に基づく音源数推定と話者ダイアライゼーション
基于视听信息集成的声源数估计和说话人二值化
  • DOI:
  • 发表时间:
    2016
  • 期刊:
  • 影响因子:
    0
  • 作者:
    若林 佑幸; 井上 昂治; 中山 雅人; 西浦 敬信; 山下 洋一; 吉本 廣雅; 河原 達也
  • 通讯作者:
    河原 達也

若林 佑幸的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('若林 佑幸', 18)}}的其他基金

残響・雑音環境下における多人数会話の話者ダイアライゼーションの研究
混响噪声环境下多人对话说话人分类研究
  • 批准号:
    16J07584
  • 财政年份:
    2016
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了