多重解像度解析を用いた機械学習による音声強調および広帯域化に関する研究

使用多分辨率分析的机器学习语音增强和宽带化研究

基本信息

批准号：
22K12133
负责人：
林誠治
金额：
$ 2万
依托单位：
Takushoku University
依托单位国家：
日本
项目类别：
Grant-in-Aid for Scientific Research (C)
财政年份：
2022
资助国家：
日本
起止时间：
2022-04-01 至 2025-03-31
项目状态：
未结题

项目摘要

狭帯域から広帯域への音声帯域拡張技術は音声としての人間らしさを強調するための手法である一方，音域のバランスを適応的に調整することで高齢になると感じる「聞こえづらさ」といった軽度の難聴問題を解消できる一助になると考えられる．本応募研究では，音声信号の多重解像度解析によって得られる階層型成分で得られる情報から，本来存在しない未知のサブバンド成分をサブバンド間の相関関係を用いて機械学習により推定することを目的に研究を遂行している．これについて，これまで本研究に係る自身の先行研究によって得られた成果をベースとして，どのようにしたら推定精度を向上させることができるか，ということを念頭に研究を進めており，まず，今年度の交付金を使用して新たな研究開発環境のハードウェア(高速なパーソナルコンピュータとGPGPUを搭載したグラフィックボード)とソフトウェア(MATLAB数値解析ソフト)の構築および整備を行った．つぎに，音声帯域拡張技術の実現手法の一つとして，連続音声データベースから音素単位に分解して子音または母音ごとの発声区間を判別し，それぞれの発声区間ごとにラベリング，つまりタグ付けを行う方法で研究を進めている．今後の研究の展開になるが，前述で得られた音素クラスタごとに多重解像度解析を用いた未知成分の推定パラメータを定義・決定し，より高品質な広帯域音声の獲得を目指す方針である．基本アプローチとしては離散ウェーブレット解析(DWT)を用いてDWT分解後のレベル間の相関を利用することで，機械学習を用いた相関係数の算出により，元来人間の肉声が持っていた高域成分および低域成分を疑似的に生成し，狭帯域の音声成分に付加することで広帯域化を図る予定である．

而从窄带到宽带的语音频带扩展技术是一种强调语音人性的方法，而自适应调整音域平衡可以减少轻度听力损失，例如老年人所经历的“听力困难”。人们认为这将有助于解决问题。在这项提交的研究中，我们的目标是利用从音频信号的多分辨率分析获得的分层分量中获得的信息，通过机器学习来估计原本不存在的未知子带分量。对此，我正在根据我自己之前与本研究相关的研究结果进行研究，同时考虑如何利用财政年度补助金来提高估计准确性，我们构建并维护了一个新的研发环境。硬件（高速个人计算机和配备 GPGPU 的图形卡）和软件（MATLAB 数值分析软件）。接下来，作为实现语音频带扩展技术的方法之一，提出了一种方法，其中将连续语音数据库分解为音素单元，确定每个辅音或元音的发声间隔，并对每个发声间隔进行标记，或者我们目前正在进行研究。在未来的研究中，我们计划对上面获得的每个音素簇使用多分辨率分析来定义和确定未知分量的估计参数，旨在获得更高质量的宽带语音。基本做法是利用离散小波分析（DWT），利用DWT分解后的电平之间的相关性，并利用机器学习计算相关系数，以改善人声原本拥有的高频范围，从而生成伪声。低频分量并将其添加到窄带音频分量中以加宽频带。