Mathematical Deepening of Audio Source Separation Based on Independence and Amplitude/Phase Modeling and Development of Multimodal Hearing-Aid system
基于独立性和幅度/相位建模的音频源分离的数学深化及多模助听系统的开发
基本信息
- 批准号:22H03652
- 负责人:
- 金额:$ 11.07万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Scientific Research (B)
- 财政年份:2022
- 资助国家:日本
- 起止时间:2022-04-01 至 2026-03-31
- 项目状态:未结题
- 来源:
- 关键词:
项目摘要
本研究は,音響信号を対象とした音源分離技術の数理的深化と高性能化を目的とする.音源分離とは,複数の音源が混合した観測信号から混合前の個々の音源信号を推定する課題である.特に,マイクの配置や音源位置,部屋の残響や形状等の事前情報等を必要としない「ブラインド音源分離(BSS)」と呼ばれる技術は,実用化と多くの応用が期待されている.しかし,BSSは事前情報が与えられない問題であり,現在でも実用化困難なレベルの性能である.本研究では,申請者が過去に提案したBSSフレームワークを大きく拡張することを目的としている.具体的には,これまで無視されてきた音の位相を表現する代数的・統計的数理モデルの構築と応用(数理的深化),深層学習に基づく様々な音の位相の教師有りモデリング(データ的拡張),ユーザと協働するインタラクティブ音源分離システムを搭載した補聴器の開発(応用的実装)の3つを主軸にした理論拡充に取り組む.課題遂行1年目の令和4年度では,時間周波数領域における位相情報(位相スペクトログラム)の新しい表現形として提案されている「修正位相スペクトログラム」をBSSに活用することについて検討した.修正位相スペクトログラムは振幅スペクトログラムと同様に音源の時間周波数構造が(通常の位相スペクトログラムよりも)はっきりと現れるものであり,位相情報をBSSの音源モデルに組み込む直接的な方法と考えている.しかしながら,修正位相スペクトログラム領域のBSSは信号の復元に分離音の位相スペクトログラムが必要となるため,これに対する解決策を考える必要がある.そこで令和4年度では,修正位相スペクトログラムの検討の前段階として,「時間微分複素スペクトログラム」を用いたBSSについて実験的な調査を実施した.調査結果として,時間微分複素スペクトログラムでも通常のBSSと同程度の性能が得られることを確認した.
本研究的目的是在数学上深化并提高声信号的声源分离技术的性能。声源分离是在混合之前从作为多个声源的混合的观察到的信号估计单个声源信号的问题。特别是一种名为“盲声源分离(BSS)”的技术,不需要麦克风放置、声源位置、房间混响和形状等先验信息,有望投入实际应用,并具有许多优点。应用程序。然而,BSS是一个没有给出先验信息的问题,其性能仍处于难以投入实际使用的水平。本研究的目的是显着扩展申请人过去提出的BSS框架。具体来说,我们将开发和应用代表迄今为止被忽略的声音相位的代数/统计数学模型(数学深化),以及基于深度学习的各种声音相位的监督建模(基于数据的建模)。扩展理论,重点关注三个领域:(扩展)和开发配备与用户配合的交互式声源分离系统的助听器(应用实现)。 2020 年,即该项目实施的第一年,我们研究了“改进的相位谱图”在 BSS 中的使用,该算法被提议作为时频域相位信息(相位谱图)的新表示形式。与幅度谱图一样,修改后的相位谱图(比常规相位谱图)更清晰地显示了声源的时频结构,我们认为它是将相位信息纳入BSS声源模型的直接方法。然而,由于修改相位谱图域中的BSS需要分离声音的相位谱图来恢复信号,因此有必要考虑解决这个问题。因此,在2020财年,作为检查修正相位谱图的初步步骤,我们使用“时间微分复数谱图”对BSS进行了实验研究。我们的调查结果表明,时间微分复杂频谱图的性能与常规 BSS 相当。
项目成果
期刊论文数量(11)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Deficient-basis-complementary rank-constrained spatial covariance matrix estimation based on multivariate generalized Gaussian distribution for blind speech extraction
基于多元广义高斯分布的盲语音提取缺基补秩约束空间协方差矩阵估计
- DOI:10.1186/s13634-022-00905-z
- 发表时间:2022
- 期刊:
- 影响因子:1.9
- 作者:Yuto Kondo;Yuki Kubo;Norihiro Takamune ;Daichi Kitamura;and Hiroshi Saruwatari
- 通讯作者:and Hiroshi Saruwatari
DNN-based frequency-domain permutation solver for multichannel audio source separation
基于 DNN 的频域排列求解器,用于多通道音频源分离
- DOI:
- 发表时间:2022
- 期刊:
- 影响因子:0
- 作者:Fumiya Hasuike;Daichi Kitamura;and Rui Watanabe
- 通讯作者:and Rui Watanabe
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
双向 LSTM 响度和 MFCC 幅度谱图预测和评估
- DOI:
- 发表时间:2022
- 期刊:
- 影响因子:0
- 作者:川口翔也;北村大地
- 通讯作者:北村大地
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
北村 大地其他文献
Hologram Printing Technology (HOPTECH)とその応用
全息打印技术(HOPTECH)及其应用
- DOI:
- 发表时间:
2017 - 期刊:
- 影响因子:0
- 作者:
最上 伸一;高宗 典玄;北村 大地;猿渡 洋;高橋 祐;近藤 多伸;中嶋 広明;小野 順貴;S. Kondo;山本健詞 - 通讯作者:
山本健詞
コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換
使用上下文后验概率的序列到序列学习进行语音转换
- DOI:
- 发表时间:
2017 - 期刊:
- 影响因子:0
- 作者:
宇根 昌和;齋藤 佑樹;高道 慎之介;北村 大地;宮崎 亮一;猿渡 洋;高道 慎之介;高道 慎之介;三好 裕之 - 通讯作者:
三好 裕之
A macroscopic model for understanding lightness optical illusions
理解亮度视错觉的宏观模型
- DOI:
- 发表时间:
2016 - 期刊:
- 影响因子:0
- 作者:
最上 伸一;高宗 典玄;北村 大地;猿渡 洋;高橋 祐;近藤 多伸;中嶋 広明;小野 順貴;S. Kondo - 通讯作者:
S. Kondo
非負値行列因子分解を用いた被り音の抑圧
使用非负矩阵分解抑制重叠声音
- DOI:
- 发表时间:
2021 - 期刊:
- 影响因子:0
- 作者:
溝渕 悠朔;北村 大地;中村 友彦;猿渡 洋;高橋 祐;近藤 多伸 - 通讯作者:
近藤 多伸
ポンプ内の摩擦を考慮した紐の運動解析
考虑泵内摩擦的管柱运动分析
- DOI:
- 发表时间:
2020 - 期刊:
- 影响因子:0
- 作者:
成澤 直輝;池下 林太郎;高宗 典玄;北村 大地;中村 友彦;猿渡 洋;中谷 智広;松田大作,飯野哲平,廣田恭平,玉井佑,滝沢研二,Tayhun E. Tezduyar - 通讯作者:
松田大作,飯野哲平,廣田恭平,玉井佑,滝沢研二,Tayhun E. Tezduyar
北村 大地的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('北村 大地', 18)}}的其他基金
独立性と振幅位相モデルに基づく音源分離の数理的深化及びマルチモーダル補聴器開発
基于独立性和幅相模型的声源分离数学深化及多模态助听器开发
- 批准号:
23K24908 - 财政年份:2024
- 资助金额:
$ 11.07万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
スパース信号分解に基づく多次元音響メディア情報処理及びその音拡張現実感への応用
基于稀疏信号分解的多维音频媒体信息处理及其在音频增强现实中的应用
- 批准号:
14J10796 - 财政年份:2014
- 资助金额:
$ 11.07万 - 项目类别:
Grant-in-Aid for JSPS Fellows
相似海外基金
独立性と振幅位相モデルに基づく音源分離の数理的深化及びマルチモーダル補聴器開発
基于独立性和幅相模型的声源分离数学深化及多模态助听器开发
- 批准号:
23K24908 - 财政年份:2024
- 资助金额:
$ 11.07万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
脳刺激型補聴器の実現に向けた、コミュニケーション音声脳内処理機構の解明
阐明交流语音的大脑处理机制,实现脑刺激助听器
- 批准号:
23K27933 - 财政年份:2024
- 资助金额:
$ 11.07万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
歯骨伝導で音の到来方向は知覚可能か? 次世代型歯骨伝導補聴器のための基礎的検討
是否可以通过牙骨传导来感知声音到来的方向?
- 批准号:
23K28125 - 财政年份:2024
- 资助金额:
$ 11.07万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
老人性難聴用補聴器への話速・音高変換技術の応用
语速/音调转换技术在老年性耳聋助听器中的应用
- 批准号:
24K15867 - 财政年份:2024
- 资助金额:
$ 11.07万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
歯骨伝導で音の到来方向は知覚可能か? 次世代型歯骨伝導補聴器のための基礎的検討
是否可以通过牙骨传导来感知声音到来的方向?
- 批准号:
23H03435 - 财政年份:2023
- 资助金额:
$ 11.07万 - 项目类别:
Grant-in-Aid for Scientific Research (B)