Mathematical Deepening of Audio Source Separation Based on Independence and Amplitude/Phase Modeling and Development of Multimodal Hearing-Aid system
基于独立性和幅度/相位建模的音频源分离的数学深化及多模助听系统的开发
基本信息
- 批准号:22H03652
- 负责人:
- 金额:$ 11.07万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Scientific Research (B)
- 财政年份:2022
- 资助国家:日本
- 起止时间:2022-04-01 至 2026-03-31
- 项目状态:未结题
- 来源:
- 关键词:
项目摘要
本研究は,音響信号を対象とした音源分離技術の数理的深化と高性能化を目的とする.音源分離とは,複数の音源が混合した観測信号から混合前の個々の音源信号を推定する課題である.特に,マイクの配置や音源位置,部屋の残響や形状等の事前情報等を必要としない「ブラインド音源分離(BSS)」と呼ばれる技術は,実用化と多くの応用が期待されている.しかし,BSSは事前情報が与えられない問題であり,現在でも実用化困難なレベルの性能である.本研究では,申請者が過去に提案したBSSフレームワークを大きく拡張することを目的としている.具体的には,これまで無視されてきた音の位相を表現する代数的・統計的数理モデルの構築と応用(数理的深化),深層学習に基づく様々な音の位相の教師有りモデリング(データ的拡張),ユーザと協働するインタラクティブ音源分離システムを搭載した補聴器の開発(応用的実装)の3つを主軸にした理論拡充に取り組む.課題遂行1年目の令和4年度では,時間周波数領域における位相情報(位相スペクトログラム)の新しい表現形として提案されている「修正位相スペクトログラム」をBSSに活用することについて検討した.修正位相スペクトログラムは振幅スペクトログラムと同様に音源の時間周波数構造が(通常の位相スペクトログラムよりも)はっきりと現れるものであり,位相情報をBSSの音源モデルに組み込む直接的な方法と考えている.しかしながら,修正位相スペクトログラム領域のBSSは信号の復元に分離音の位相スペクトログラムが必要となるため,これに対する解決策を考える必要がある.そこで令和4年度では,修正位相スペクトログラムの検討の前段階として,「時間微分複素スペクトログラム」を用いたBSSについて実験的な調査を実施した.調査結果として,時間微分複素スペクトログラムでも通常のBSSと同程度の性能が得られることを確認した.
这项研究旨在在数学上加深和提高声学信号的声源分离技术的性能。声源分离是一项任务,在通过混合多个声源获得的观察到的信号混合之前,可以估算单个声源信号。特别是,一种称为“盲声源分离(BSS)”的技术不需要以前的信息,例如麦克风布置,声音源位置,房间回响和形状,预计将在许多方面进行实用且应用。但是,BSS是一个没有提供先前信息的问题,其性能仍然很难进行实际使用。这项研究旨在大大扩展申请人过去提出的BSS框架。 Specifically, we will work on expanding theories mainly focusing on three main points: building and applying algebraic and statistical mathematical models that express the phases of sounds that have been ignored up until now (mathematical deepening), modeling with teachers of the phases of various sounds based on deep learning (data extension), and developing hearing aids equipped with an interactive sound source separation system that collaborates with users (applied implementation).在2022财政年度,即执行任务的第一年,我们讨论了BSS中时间频域中提出的一种新形式的相位信息(相位频谱图)的“修饰相光谱图”的使用。修改的相光谱图显示了与振幅频谱图相似的声源的时间频率结构(不仅仅是常规相光谱图),我们认为这是将相位信息纳入BSS声音源模型的直接方法。但是,修改后的相光谱区域中的BSS需要分离声音的相光谱图才能恢复信号,因此需要考虑解决方案。因此,在2022年,作为检查修饰相光谱图的初步阶段,我们使用“时间微分复杂频谱图”对BSS进行了实验研究。通过调查,我们确认时间差的复合谱图可以实现与正常BSS相似的性能。
项目成果
期刊论文数量(11)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Deficient-basis-complementary rank-constrained spatial covariance matrix estimation based on multivariate generalized Gaussian distribution for blind speech extraction
基于多元广义高斯分布的盲语音提取缺基补秩约束空间协方差矩阵估计
- DOI:10.1186/s13634-022-00905-z
- 发表时间:2022
- 期刊:
- 影响因子:1.9
- 作者:Yuto Kondo;Yuki Kubo;Norihiro Takamune ;Daichi Kitamura;and Hiroshi Saruwatari
- 通讯作者:and Hiroshi Saruwatari
DNN-based frequency-domain permutation solver for multichannel audio source separation
基于 DNN 的频域排列求解器,用于多通道音频源分离
- DOI:
- 发表时间:2022
- 期刊:
- 影响因子:0
- 作者:Fumiya Hasuike;Daichi Kitamura;and Rui Watanabe
- 通讯作者:and Rui Watanabe
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
双向 LSTM 响度和 MFCC 幅度谱图预测和评估
- DOI:
- 发表时间:2022
- 期刊:
- 影响因子:0
- 作者:川口翔也;北村大地
- 通讯作者:北村大地
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
北村 大地其他文献
Hologram Printing Technology (HOPTECH)とその応用
全息打印技术(HOPTECH)及其应用
- DOI:
- 发表时间:
2017 - 期刊:
- 影响因子:0
- 作者:
最上 伸一;高宗 典玄;北村 大地;猿渡 洋;高橋 祐;近藤 多伸;中嶋 広明;小野 順貴;S. Kondo;山本健詞 - 通讯作者:
山本健詞
コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換
使用上下文后验概率的序列到序列学习进行语音转换
- DOI:
- 发表时间:
2017 - 期刊:
- 影响因子:0
- 作者:
宇根 昌和;齋藤 佑樹;高道 慎之介;北村 大地;宮崎 亮一;猿渡 洋;高道 慎之介;高道 慎之介;三好 裕之 - 通讯作者:
三好 裕之
A macroscopic model for understanding lightness optical illusions
理解亮度视错觉的宏观模型
- DOI:
- 发表时间:
2016 - 期刊:
- 影响因子:0
- 作者:
最上 伸一;高宗 典玄;北村 大地;猿渡 洋;高橋 祐;近藤 多伸;中嶋 広明;小野 順貴;S. Kondo - 通讯作者:
S. Kondo
非負値行列因子分解を用いた被り音の抑圧
使用非负矩阵分解抑制重叠声音
- DOI:
- 发表时间:
2021 - 期刊:
- 影响因子:0
- 作者:
溝渕 悠朔;北村 大地;中村 友彦;猿渡 洋;高橋 祐;近藤 多伸 - 通讯作者:
近藤 多伸
ポンプ内の摩擦を考慮した紐の運動解析
考虑泵内摩擦的管柱运动分析
- DOI:
- 发表时间:
2020 - 期刊:
- 影响因子:0
- 作者:
成澤 直輝;池下 林太郎;高宗 典玄;北村 大地;中村 友彦;猿渡 洋;中谷 智広;松田大作,飯野哲平,廣田恭平,玉井佑,滝沢研二,Tayhun E. Tezduyar - 通讯作者:
松田大作,飯野哲平,廣田恭平,玉井佑,滝沢研二,Tayhun E. Tezduyar
北村 大地的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('北村 大地', 18)}}的其他基金
独立性と振幅位相モデルに基づく音源分離の数理的深化及びマルチモーダル補聴器開発
基于独立性和幅相模型的声源分离数学深化及多模态助听器开发
- 批准号:
23K24908 - 财政年份:2024
- 资助金额:
$ 11.07万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
スパース信号分解に基づく多次元音響メディア情報処理及びその音拡張現実感への応用
基于稀疏信号分解的多维音频媒体信息处理及其在音频增强现实中的应用
- 批准号:
14J10796 - 财政年份:2014
- 资助金额:
$ 11.07万 - 项目类别:
Grant-in-Aid for JSPS Fellows
相似海外基金
独立性と振幅位相モデルに基づく音源分離の数理的深化及びマルチモーダル補聴器開発
基于独立性和幅相模型的声源分离数学深化及多模态助听器开发
- 批准号:
23K24908 - 财政年份:2024
- 资助金额:
$ 11.07万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
脳刺激型補聴器の実現に向けた、コミュニケーション音声脳内処理機構の解明
阐明交流语音的大脑处理机制,实现脑刺激助听器
- 批准号:
23K27933 - 财政年份:2024
- 资助金额:
$ 11.07万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
歯骨伝導で音の到来方向は知覚可能か? 次世代型歯骨伝導補聴器のための基礎的検討
是否可以通过牙骨传导来感知声音到来的方向?
- 批准号:
23K28125 - 财政年份:2024
- 资助金额:
$ 11.07万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
老人性難聴用補聴器への話速・音高変換技術の応用
语速/音调转换技术在老年性耳聋助听器中的应用
- 批准号:
24K15867 - 财政年份:2024
- 资助金额:
$ 11.07万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
歯骨伝導で音の到来方向は知覚可能か? 次世代型歯骨伝導補聴器のための基礎的検討
是否可以通过牙骨传导来感知声音到来的方向?
- 批准号:
23H03435 - 财政年份:2023
- 资助金额:
$ 11.07万 - 项目类别:
Grant-in-Aid for Scientific Research (B)