多重解像度解析を用いた機械学習による音声強調および広帯域化に関する研究
使用多分辨率分析的机器学习语音增强和宽带化研究
基本信息
- 批准号:22K12133
- 负责人:
- 金额:$ 2万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Scientific Research (C)
- 财政年份:2022
- 资助国家:日本
- 起止时间:2022-04-01 至 2025-03-31
- 项目状态:未结题
- 来源:
- 关键词:
项目摘要
狭帯域から広帯域への音声帯域拡張技術は音声としての人間らしさを強調するための手法である一方,音域のバランスを適応的に調整することで高齢になると感じる「聞こえづらさ」といった軽度の難聴問題を解消できる一助になると考えられる.本応募研究では,音声信号の多重解像度解析によって得られる階層型成分で得られる情報から,本来存在しない未知のサブバンド成分をサブバンド間の相関関係を用いて機械学習により推定することを目的に研究を遂行している.これについて,これまで本研究に係る自身の先行研究によって得られた成果をベースとして,どのようにしたら推定精度を向上させることができるか,ということを念頭に研究を進めており,まず,今年度の交付金を使用して新たな研究開発環境のハードウェア(高速なパーソナルコンピュータとGPGPUを搭載したグラフィックボード)とソフトウェア(MATLAB数値解析ソフト)の構築および整備を行った.つぎに,音声帯域拡張技術の実現手法の一つとして,連続音声データベースから音素単位に分解して子音または母音ごとの発声区間を判別し,それぞれの発声区間ごとにラベリング,つまりタグ付けを行う方法で研究を進めている.今後の研究の展開になるが,前述で得られた音素クラスタごとに多重解像度解析を用いた未知成分の推定パラメータを定義・決定し,より高品質な広帯域音声の獲得を目指す方針である.基本アプローチとしては離散ウェーブレット解析(DWT)を用いてDWT分解後のレベル間の相関を利用することで,機械学習を用いた相関係数の算出により,元来人間の肉声が持っていた高域成分および低域成分を疑似的に生成し,狭帯域の音声成分に付加することで広帯域化を図る予定である.
而从窄带到宽带的语音频带扩展技术是一种强调语音人性的方法,而自适应调整音域平衡可以减少轻度听力损失,例如老年人所经历的“听力困难”。人们认为这将有助于解决问题。在这项提交的研究中,我们的目标是利用从音频信号的多分辨率分析获得的分层分量中获得的信息,通过机器学习来估计原本不存在的未知子带分量。对此,我正在根据我自己之前与本研究相关的研究结果进行研究,同时考虑如何利用财政年度补助金来提高估计准确性,我们构建并维护了一个新的研发环境。硬件(高速个人计算机和配备 GPGPU 的图形卡)和软件(MATLAB 数值分析软件)。接下来,作为实现语音频带扩展技术的方法之一,提出了一种方法,其中将连续语音数据库分解为音素单元,确定每个辅音或元音的发声间隔,并对每个发声间隔进行标记,或者我们目前正在进行研究。在未来的研究中,我们计划对上面获得的每个音素簇使用多分辨率分析来定义和确定未知分量的估计参数,旨在获得更高质量的宽带语音。基本做法是利用离散小波分析(DWT),利用DWT分解后的电平之间的相关性,并利用机器学习计算相关系数,以改善人声原本拥有的高频范围,从而生成伪声。低频分量并将其添加到窄带音频分量中以加宽频带。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
林 誠治其他文献
Single Channel Speech Enhancement Based on Perceptual Frequency-weighting
基于感知频率加权的单通道语音增强
- DOI:
- 发表时间:
2007 - 期刊:
- 影响因子:0
- 作者:
林 誠治 - 通讯作者:
林 誠治
Speech Enhancement using Perceptual Frequency-weighting
使用感知频率加权的语音增强
- DOI:
- 发表时间:
2006 - 期刊:
- 影响因子:0
- 作者:
林 誠治 - 通讯作者:
林 誠治
Single Channel Speech Enhancement Based on Perceptual Frequency-weighting
基于感知频率加权的单通道语音增强
- DOI:
- 发表时间:
2007 - 期刊:
- 影响因子:0
- 作者:
林 誠治 - 通讯作者:
林 誠治
Speech Enhancement using Perceptual Frequency-weighting
使用感知频率加权的语音增强
- DOI:
- 发表时间:
2006 - 期刊:
- 影响因子:0
- 作者:
林 誠治 - 通讯作者:
林 誠治
Speech Enhancement using Perceptual Frequency-weighting
使用感知频率加权的语音增强
- DOI:
- 发表时间:
2006 - 期刊:
- 影响因子:0
- 作者:
林 誠治 - 通讯作者:
林 誠治
林 誠治的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
相似海外基金
調和解析的方法によるディジタル・フィルタと非線形画像処理の研究及びその応用
调和分析方法的数字滤波器和非线性图像处理及其应用研究
- 批准号:
19H01801 - 财政年份:2019
- 资助金额:
$ 2万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
A research on 3D mesh watermarking techniques via vector signal processing
基于矢量信号处理的3D网格水印技术研究
- 批准号:
16K06359 - 财政年份:2016
- 资助金额:
$ 2万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Mathematical study on human vision by using framelets and its applications to image processing
基于框架的人类视觉数学研究及其在图像处理中的应用
- 批准号:
15H03629 - 财政年份:2015
- 资助金额:
$ 2万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
Development of an energy-saving support system for ship operation
船舶运营节能支撑系统开发
- 批准号:
26420822 - 财政年份:2014
- 资助金额:
$ 2万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
A theory and applications of multidimensional wavelets
多维小波理论及应用
- 批准号:
26730099 - 财政年份:2014
- 资助金额:
$ 2万 - 项目类别:
Grant-in-Aid for Young Scientists (B)