面向混响环境的多口音语音识别研究
项目介绍
AI项目解读
基本信息
- 批准号:61771333
- 项目类别:面上项目
- 资助金额:62.0万
- 负责人:
- 依托单位:
- 学科分类:F0117.多媒体信息处理
- 结题年份:2021
- 批准年份:2017
- 项目状态:已结题
- 起止时间:2018-01-01 至2021-12-31
- 项目参与者:王洪翠; 刘志磊; 更太加; 郭丽丽; 关昊天; 李东播;
- 关键词:
项目摘要
As the most natural human-computer interaction, speech processing technology has made rapid development in recent years. Multi accent speech recognition in reverberant acoustic environment is a key break in the next step of human speech interaction, but its recognition performance is still low now. To solve the above problems, this project will study the extraction principle and method of the complementary speech feature for multi accent speech in reverberant acoustic environment, mutual enhancement algorithm of the complementary speech feature, and multi task learning algorithm for fast environment and accent adaptation. In the aspect of complementary speech feature extraction, we focus on the principle of the feature separation and extraction of sound source and vocal tract based on phase domain. In the aspect of mutual enhancement of acoustic features, with a variety of features from multi accent speech in reverberant acoustic environment, we study some mutual enhancement algorithms of different kinds of the complementary acoustic features based on the deep neural network. In the aspect of multi task learning, we generate the training data of multi task learning by the algorithm of transfer learning. At the same time, we design the target functions of the speech enhancement, speech recognition, accent recognition, speaker recognition, and with the global optimization parameters of the training model, we will present a fast adaptive algorithm for environment and accent.
语音处理技术作为最为自然的人机交互方式近年取得快速发展。面向混响声学环境的多口音语音识别是人机语音交互下一步要取得重大突破的关键,然而其性能还非常低。针对以上问题,本项目将研究面向混响声学环境下的多口音语音的互补语音特征提取原理和方法,互补语音特征的互增强算法以及环境与口音快速自适应的多任务学习算法。在互补语音特征提取方面,研究基于相位域的声源与声道特征分离和提取原理,并利用人类的听觉特性改进相位信息在混响声学环境下的鲁棒性。在语音特征互增强方面,利用混响声学环境下的多口音语音包含的多种特征的互补性和相关性,研究基于深度神经网络的各种互补特征的互增强算法及其特征间的关系。在多任务学习方面,研究利用迁移学习的算法生成多任务学习的训练数据。同时,设计语音增强、语音识别、口音识别、声纹识别多任务的目标函数,通过全局最优化训练模型的参数,并提出了环境与口音快速自适应的算法。
结项摘要
语音处理技术作为最自然的人机交互方式,近年来快速发展并取得了广泛的应用。面向混响声学环境下的多口音语音识别是人机语音交互的关键和主要挑战。针对这一挑战,本项目从多口音数据库构建、互补特征提取、语音增强、鲁棒语音识别等多维度开展研究。在多口音数据库构建方面,项目组设计并构建了包含东北口音、山西口音、藏族口音和维族口音的100名说话人的高质量多口音数据库(包括近场和远场多口音数据22000余条),同时扩充了7个国内主要方言区的混响语音数据。在互补特征提取方面,项目组提出了基于振幅、相位、韵律、口音等多维度特征的多种互补语音特征提取算法。在语音增强方面,项目组提出了多种互补特征的互增强算法,同时提出了基于听觉机制的目标说话人语音分离与增强方法。在鲁棒语音识别方面,项目组提出了基于语音产生与感知机理的非线性失真语音识别算法,以及语音增强与多口音语音识别联合优化算法,实现一套混响环境下的鲁棒多口音语音识别系统,近场环境下的语音识别准确率超过95.0%,在混响环境下的多口音语音识别的准确率达到85.5%。相关学术成果在语音处理高水平国际期刊和会议上发表了45篇学术论文,并申请8项发明专利(其中5项已经完成授权),培养了2名博士学生以及10名硕士学生。本项目提出了借鉴及融合语音产生与感知机理、信号处理与深度学习的语音增强算法,为复杂场景下的前端信号处理提供了研究思路,具有较高的研究前景和科学意义;本项目提出了语音增强、语音识别、口音识别、声纹识别多任务联合优化的目标函数,通过全局最优化训练模型的参数,提升了语音识别的识别性能。这些方法也对复杂场景下的声纹识别、语音交互具有很强的借鉴作用。同时,在项目执行期间,与国内外10多家著名高校、科研机构、企业开展深入合作,相关成果被应用到华为、阿里巴巴、滴滴出行、新大陆等多个行业的龙头企业。今后,项目组计划将开源多口音数据库和语音识别系统,预计将产生更加广泛的影响。
项目成果
期刊论文数量(9)
专著数量(0)
科研奖励数量(0)
会议论文数量(36)
专利数量(8)
Replay Attack Detection using Linear Prediction Analysis-Based Relative Phase Features
使用基于线性预测分析的相对相位特征进行重放攻击检测
- DOI:--
- 发表时间:2019
- 期刊:IEEE Access
- 影响因子:3.9
- 作者:Khomdet Phapatanaburi;Longbiao Wang;Seiichi Nakagawa;Masahiro Iwahashi
- 通讯作者:Masahiro Iwahashi
Exploration of Complementary Features for Speech Emotion Recognition Based on Kernel Extreme Learning Machine
基于核极限学习机的语音情感识别互补特征探索
- DOI:10.1109/access.2019.2921390
- 发表时间:2019
- 期刊:IEEE Access
- 影响因子:3.9
- 作者:Lili Gun;Longbiao Wang;Jianwu Dang
- 通讯作者:Jianwu Dang
Learning Affective Representations Based on Magnitude and Dynamic Relative Phase Information for Speech Emotion Recognition
基于幅度和动态相对相位信息的学习情感表示用于语音情感识别
- DOI:--
- 发表时间:2021
- 期刊:Speech Communication
- 影响因子:3.2
- 作者:Lili Guo;Longbiao Wang;Jianwu Dang;Eng Siong Chng;Seiichi Nakagawa
- 通讯作者:Seiichi Nakagawa
Representation Learning of Tongue Dynamics for a Silent Speech Interface
无声语音界面舌头动力学的表示学习
- DOI:10.1587/transinf.2021edp7090
- 发表时间:2021
- 期刊:IEICE Transactions on Information and Systems E104.D(12):2209-2217
- 影响因子:--
- 作者:Hongcui Wang;Pierre Roussel;Bruce Denby
- 通讯作者:Bruce Denby
Replay attack detection with auditory filter-based relative phase features
使用基于听觉滤波器的相对相位特征进行重放攻击检测
- DOI:10.1186/s13636-019-0151-2
- 发表时间:2019
- 期刊:EURASIP Journal on Audio, Speech, and Music Processing
- 影响因子:--
- 作者:Zeyan Oo;Longbiao Wang;Khomdet Phapatanaburi;Meng Liu;Seiichi Nakagawa;Masahiro Iwahashi;Jianwu Dang
- 通讯作者:Jianwu Dang
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--"}}
- 发表时间:{{ item.publish_year || "--" }}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--"}}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ patent.updateTime }}
其他文献
构音障碍话者与正常话者发音的比较分析
- DOI:--
- 发表时间:2017
- 期刊:中国语音学报
- 影响因子:--
- 作者:原梦;王洪翠;王龙标;党建武
- 通讯作者:党建武
其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--" }}
- 发表时间:{{ item.publish_year || "--"}}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--" }}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
内容获取失败,请点击重试
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:
AI项目摘要
AI项目思路
AI技术路线图
请为本次AI项目解读的内容对您的实用性打分
非常不实用
非常实用
1
2
3
4
5
6
7
8
9
10
您认为此功能如何分析更能满足您的需求,请填写您的反馈:
王龙标的其他基金
面向复杂场景的声纹识别与声纹反欺诈研究
- 批准号:
- 批准年份:2021
- 资助金额:57 万元
- 项目类别:面上项目
相似国自然基金
{{ item.name }}
- 批准号:{{ item.ratify_no }}
- 批准年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}
相似海外基金
{{
item.name }}
{{ item.translate_name }}
- 批准号:{{ item.ratify_no }}
- 财政年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}