位相差のモデルを活用したアドホックマイクロホンアレイ信号処理

使用相位差模型的特设麦克风阵列信号处理

基本信息

批准号：
22KJ2545
负责人：
升山義紀
金额：
$ 1.98万
依托单位：
Tokyo Metropolitan University
依托单位国家：
日本
项目类别：
Grant-in-Aid for JSPS Fellows
财政年份：
2023
资助国家：
日本
起止时间：
2023-03-08 至 2024-03-31
项目状态：
已结题

项目摘要

本研究課題では，分散配置されたスマートフォンやタブレットPCなどの録音機能をもつデバイスを連携させアレイ信号処理を行う，アドホックアレイ信号処理に取り組んでいる．アドホックアレイ信号処理では，各デバイスでのサンプリング周波数のずれにより，通常のアレイでは定常になるマイク間の位相差が非定常になり，これまでのアレイ信号処理がそのままでは適用できなくなるという課題がある．本年度は昨年度に引き続き，位相差の非定常性の原因であるサンプリング周波数のずれの推定・補償に取り組んだ．従来手法はあるマイクロホンのサンプリング周波数を基準とし，各非参照マイクロホンのサンプリング周波数の基準からのずれを個別に推定する．一方，提案手法では，アドホックアレイにおける多チャネル信号全体の確率モデルに基づきすべての非参照マイクロホンのサンプリング周波数を同時推定する．これにより，従来手法では考慮されていなかった非参照マイクロホン間の整合性を最適化の基準に取り入れることができ，推定精度が改善することを確認した．そして，サンプリング周波数の補償を行わないと音源分離の性能が低下する条件においても，提案手法によって音源分離性能を維持できることを確認した．また，アドホックアレイ信号処理の主要な応用先の一つである会議などの議事録作成を見据えて，音声強調・分離と音声認識の統合学習にも取り組んだ．特に，音声認識では近年注目されている自己教師あり学習表現 (SSLR) モデルを活用することで高い性能を実現した．多チャネル音声強調では様々なビームフォーマを比較検討し，WPDビームフォーマとSSLRモデルと組み合わせることで雑音・残響のある様々な環境において特に低い単語誤り率を実現した．

该研究主题正在处理临时数组信号处理，其中具有记录功能（例如分布式智能手机和平板电脑）的设备链接到执行数组信号处理。随着临时数组信号处理，由于每个设备中采样频率的偏差，麦克风之间的相位差在正常阵列中变得稳定，从而导致一个问题，即不能像IS一样应用上一个阵列信号处理。今年，与去年一样，我们致力于估算和补偿采样频率的偏差，这是非平稳期差异的原因。在常规方法中，将某个麦克风的采样频率用作参考，并且单独估计每个非参考麦克风的采样频率的偏差。另一方面，提出的方法同时估计了基于整个多通道信号的概率模型在临时数组中的所有非参考麦克风的采样频率。这证实，在常规方法中未考虑的非参考麦克风之间的一致性可以纳入优化标准，并提高了估计精度。此外，我们确认即使在声音源分离性能降低而无需补偿采样频率的情况下，即使在声音源分离性能降低的情况下，也可以使用所提出的方法保持声源分离性能。此外，为了为会议创建会议记录，这是临时阵列信号处理的主要应用之一，我们还致力于对语音，分离和语音识别的综合学习。特别是，通过利用自我监督的学习表达（SSLR）模型来实现高性能，该模型近年来一直引起人们的注意。在多频道音频强调中，比较了各种光束形式，并且与WPD光束器和SSLR模型相结合时，在具有噪声和回响的各种环境中达到了特别低的单词错误率。

项目成果

期刊论文数量（0）

专著数量（0）

科研奖励数量（0）

会议论文数量（0）

专利数量（0）

End-to-End Integration of Speech Recognition, Dereverberation, Beamforming, and Self-Supervised Learning Representation

DOI：
10.1109/slt54892.2023.10023199
发表时间：
2022-10
期刊：
2022 IEEE Spoken Language Technology Workshop (SLT)
影响因子：
0
作者：
Yoshiki Masuyama;Xuankai Chang;Samuele Cornell;Shinji Watanabe;Nobutaka Ono
通讯作者：
Yoshiki Masuyama;Xuankai Chang;Samuele Cornell;Shinji Watanabe;Nobutaka Ono

Joint Optimization of Sampling Rate Offsets Based on Entire Signal Relationship Among Distributed Microphones