Data-driven sound field measurement for high-resolution spatial audio analysis and its applications

数据驱动的高分辨率空间音频分析声场测量及其应用

基本信息

批准号：
22H03608
负责人：
小山翔一
金额：
$ 11.07万
依托单位：
National Institute of Informatics (2023)The University of Tokyo (2022)
依托单位国家：
日本
项目类别：
Grant-in-Aid for Scientific Research (B)
财政年份：
2022
资助国家：
日本
起止时间：
2022-04-01 至 2026-03-31
项目状态：
未结题

来源：
https://kaken.nii.ac.jp/en/grant/KAKENHI-PROJECT-22H03608/
关键词：
音場解析音響信号処理機械学習バーチャルリアリティ

项目摘要

本年度は，1) 音場補間のためのカーネル関数の適応的アルゴリズムの構築，2) 波動場の性質を組み入れた深層学習型音場計測法の検討，3) 少数観測点からの頭部伝達関数補間手法の構築，の３つについて実施した。1) 音場補間のためのカーネル関数の適応的アルゴリズムの構築では，音場のカーネル補間法において，推定解がヘルムホルツ方程式を満たす制約を保持しつつ，推定対象の環境に対してカーネル関数を適応的に学習可能なアルゴリズムを検討した。具体的には，カーネル関数を複数のサブカーネルの重み付き和として表現し，その重みパラメータを最適化する，マルチカーネル学習の枠組みに基づく。バッチ学習によるアルゴリズムを構築し，数値シミュレーションによって検証・評価を行った。2) 波動場の性質を組み入れた深層学習型音場計測法の検討では，事前の学習データを用いる音場推定の枠組みにおいて，推定結果がHelmholtz方程式を満たすことを損失関数に組み入れる手法を検討した。畳み込みニューラルネットワークに基づく補間において，出力値の補間に基づくヘルムホルツ方程式由来の損失関数を組み入れることに基づく。２次元空間での数値シミュレーションにより，対象領域内が自由空間の場合，散乱体を含む場合の二通りについて検証・評価を行った。3) 少数観測点からの頭部伝達関数補間手法の構築は，開始当初は実施を想定していなかったが，関連性の強い技術として検討に着手した。線形回帰に基づく従来法を再解釈し，オートエンコーダ構造を用いた深層学習に基づく補間手法を構築した。公開データセットを用いた検証・評価により，有効性を確認した。

今年，我们进行了三种类型：1）为声场插值构建一种用于内核函数的自适应算法，2）研究一种深度学习的声场测量方法，该方法结合了波场的性质，3）从少数观察点构建头部转移函数插值方法。 1）在构建用于声场插值内核函数的自适应算法时，我们研究了一种算法，该算法可以自适应地学习旨在估算的环境的内核功能，同时保留估计解决方案满足kernel interpolation of Sound Field方法中的Helmholtz方程。具体而言，它基于多内核学习框架，其中内核函数表示为多个子内存的加权总和并优化了其权重参数。使用数值模拟构建，验证和评估了使用批处理学习的算法。 2）在结合波场特性的深度学习声场测量方法的研究中，我们研究了一种使用先验学习数据将损失函数纳入声场估计框架中的方法，以结合估计结果满足Helmholtz方程。在基于卷积神经网络的插值中，它基于基于输出值插值的Helmholtz方程中的损失函数。验证了两种维度的数值模拟，并以两种方式进行评估：何时目标区域是自由空间以及何时包括散射器。 3）从少数观察点构建头部传递函数插值方法并不是要在一开始就实施的，但是我们开始将其视为一种高度相关的技术。我们根据线性回归重新解释了常规方法，并基于使用自动编码器结构进行深度学习构建了插值方法。通过使用公共数据集进行验证和评估证实了有效性。