面向混响环境的多口音语音识别研究

结题报告
项目介绍
AI项目解读

基本信息

  • 批准号:
    61771333
  • 项目类别:
    面上项目
  • 资助金额:
    62.0万
  • 负责人:
  • 依托单位:
  • 学科分类:
    F0117.多媒体信息处理
  • 结题年份:
    2021
  • 批准年份:
    2017
  • 项目状态:
    已结题
  • 起止时间:
    2018-01-01 至2021-12-31

项目摘要

As the most natural human-computer interaction, speech processing technology has made rapid development in recent years. Multi accent speech recognition in reverberant acoustic environment is a key break in the next step of human speech interaction, but its recognition performance is still low now. To solve the above problems, this project will study the extraction principle and method of the complementary speech feature for multi accent speech in reverberant acoustic environment, mutual enhancement algorithm of the complementary speech feature, and multi task learning algorithm for fast environment and accent adaptation. In the aspect of complementary speech feature extraction, we focus on the principle of the feature separation and extraction of sound source and vocal tract based on phase domain. In the aspect of mutual enhancement of acoustic features, with a variety of features from multi accent speech in reverberant acoustic environment, we study some mutual enhancement algorithms of different kinds of the complementary acoustic features based on the deep neural network. In the aspect of multi task learning, we generate the training data of multi task learning by the algorithm of transfer learning. At the same time, we design the target functions of the speech enhancement, speech recognition, accent recognition, speaker recognition, and with the global optimization parameters of the training model, we will present a fast adaptive algorithm for environment and accent.
语音处理技术作为最为自然的人机交互方式近年取得快速发展。面向混响声学环境的多口音语音识别是人机语音交互下一步要取得重大突破的关键,然而其性能还非常低。针对以上问题,本项目将研究面向混响声学环境下的多口音语音的互补语音特征提取原理和方法,互补语音特征的互增强算法以及环境与口音快速自适应的多任务学习算法。在互补语音特征提取方面,研究基于相位域的声源与声道特征分离和提取原理,并利用人类的听觉特性改进相位信息在混响声学环境下的鲁棒性。在语音特征互增强方面,利用混响声学环境下的多口音语音包含的多种特征的互补性和相关性,研究基于深度神经网络的各种互补特征的互增强算法及其特征间的关系。在多任务学习方面,研究利用迁移学习的算法生成多任务学习的训练数据。同时,设计语音增强、语音识别、口音识别、声纹识别多任务的目标函数,通过全局最优化训练模型的参数,并提出了环境与口音快速自适应的算法。

结项摘要

语音处理技术作为最自然的人机交互方式,近年来快速发展并取得了广泛的应用。面向混响声学环境下的多口音语音识别是人机语音交互的关键和主要挑战。针对这一挑战,本项目从多口音数据库构建、互补特征提取、语音增强、鲁棒语音识别等多维度开展研究。在多口音数据库构建方面,项目组设计并构建了包含东北口音、山西口音、藏族口音和维族口音的100名说话人的高质量多口音数据库(包括近场和远场多口音数据22000余条),同时扩充了7个国内主要方言区的混响语音数据。在互补特征提取方面,项目组提出了基于振幅、相位、韵律、口音等多维度特征的多种互补语音特征提取算法。在语音增强方面,项目组提出了多种互补特征的互增强算法,同时提出了基于听觉机制的目标说话人语音分离与增强方法。在鲁棒语音识别方面,项目组提出了基于语音产生与感知机理的非线性失真语音识别算法,以及语音增强与多口音语音识别联合优化算法,实现一套混响环境下的鲁棒多口音语音识别系统,近场环境下的语音识别准确率超过95.0%,在混响环境下的多口音语音识别的准确率达到85.5%。相关学术成果在语音处理高水平国际期刊和会议上发表了45篇学术论文,并申请8项发明专利(其中5项已经完成授权),培养了2名博士学生以及10名硕士学生。本项目提出了借鉴及融合语音产生与感知机理、信号处理与深度学习的语音增强算法,为复杂场景下的前端信号处理提供了研究思路,具有较高的研究前景和科学意义;本项目提出了语音增强、语音识别、口音识别、声纹识别多任务联合优化的目标函数,通过全局最优化训练模型的参数,提升了语音识别的识别性能。这些方法也对复杂场景下的声纹识别、语音交互具有很强的借鉴作用。同时,在项目执行期间,与国内外10多家著名高校、科研机构、企业开展深入合作,相关成果被应用到华为、阿里巴巴、滴滴出行、新大陆等多个行业的龙头企业。今后,项目组计划将开源多口音数据库和语音识别系统,预计将产生更加广泛的影响。

项目成果

期刊论文数量(9)
专著数量(0)
科研奖励数量(0)
会议论文数量(36)
专利数量(8)
Replay Attack Detection using Linear Prediction Analysis-Based Relative Phase Features
使用基于线性预测分析的相对相位特征进行重放攻击检测
  • DOI:
    --
  • 发表时间:
    2019
  • 期刊:
    IEEE Access
  • 影响因子:
    3.9
  • 作者:
    Khomdet Phapatanaburi;Longbiao Wang;Seiichi Nakagawa;Masahiro Iwahashi
  • 通讯作者:
    Masahiro Iwahashi
Exploration of Complementary Features for Speech Emotion Recognition Based on Kernel Extreme Learning Machine
基于核极限学习机的语音情感识别互补特征探索
  • DOI:
    10.1109/access.2019.2921390
  • 发表时间:
    2019
  • 期刊:
    IEEE Access
  • 影响因子:
    3.9
  • 作者:
    Lili Gun;Longbiao Wang;Jianwu Dang
  • 通讯作者:
    Jianwu Dang
Learning Affective Representations Based on Magnitude and Dynamic Relative Phase Information for Speech Emotion Recognition
基于幅度和动态相对相位信息的学习情感表示用于语音情感识别
  • DOI:
    --
  • 发表时间:
    2021
  • 期刊:
    Speech Communication
  • 影响因子:
    3.2
  • 作者:
    Lili Guo;Longbiao Wang;Jianwu Dang;Eng Siong Chng;Seiichi Nakagawa
  • 通讯作者:
    Seiichi Nakagawa
Representation Learning of Tongue Dynamics for a Silent Speech Interface
无声语音界面舌头动力学的表示学习
  • DOI:
    10.1587/transinf.2021edp7090
  • 发表时间:
    2021
  • 期刊:
    IEICE Transactions on Information and Systems E104.D(12):2209-2217
  • 影响因子:
    --
  • 作者:
    Hongcui Wang;Pierre Roussel;Bruce Denby
  • 通讯作者:
    Bruce Denby
Replay attack detection with auditory filter-based relative phase features
使用基于听觉滤波器的相对相位特征进行重放攻击检测
  • DOI:
    10.1186/s13636-019-0151-2
  • 发表时间:
    2019
  • 期刊:
    EURASIP Journal on Audio, Speech, and Music Processing
  • 影响因子:
    --
  • 作者:
    Zeyan Oo;Longbiao Wang;Khomdet Phapatanaburi;Meng Liu;Seiichi Nakagawa;Masahiro Iwahashi;Jianwu Dang
  • 通讯作者:
    Jianwu Dang

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--"}}
  • 发表时间:
    {{ item.publish_year || "--" }}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--"}}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ patent.updateTime }}

其他文献

构音障碍话者与正常话者发音的比较分析
  • DOI:
    --
  • 发表时间:
    2017
  • 期刊:
    中国语音学报
  • 影响因子:
    --
  • 作者:
    原梦;王洪翠;王龙标;党建武
  • 通讯作者:
    党建武

其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--" }}
  • 发表时间:
    {{ item.publish_year || "--"}}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--" }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}
empty
内容获取失败,请点击重试
重试联系客服
title开始分析
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:

AI项目思路

AI技术路线图

王龙标的其他基金

面向复杂场景的声纹识别与声纹反欺诈研究
  • 批准号:
  • 批准年份:
    2021
  • 资助金额:
    57 万元
  • 项目类别:
    面上项目

相似国自然基金

{{ item.name }}
  • 批准号:
    {{ item.ratify_no }}
  • 批准年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}

相似海外基金

{{ item.name }}
{{ item.translate_name }}
  • 批准号:
    {{ item.ratify_no }}
  • 财政年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了

AI项目解读示例

课题项目:调控A型流感病毒诱导IFN-β表达的机制研究

AI项目摘要:

本研究聚焦于TRIM2蛋白在A型流感病毒诱导的IFN-β表达中的调控机制。A型流感病毒是全球性健康问题,其感染可导致严重的呼吸道疾病。IFN-β作为关键的抗病毒因子,其表达水平对抗病毒防御至关重要。然而,TRIM2如何调控IFN-β的表达尚未明确。本研究假设TRIM2通过与病毒RNA或宿主因子相互作用,影响IFN-β的产生。我们将采用分子生物学、细胞生物学和免疫学方法,探索TRIM2与A型流感病毒诱导IFN-β表达的关系。预期结果将揭示TRIM2在抗病毒免疫反应中的作用,为开发新的抗病毒策略提供理论基础。该研究对理解宿主抗病毒机制具有重要科学意义,并可能对临床治疗流感病毒感染提供新的视角。

AI项目思路:

科学问题:TRIM2如何调控A型流感病毒诱导的IFN-β表达?
前期研究:已有研究表明TRIM2参与抗病毒反应,但其具体机制尚不明确。
研究创新点:本研究将深入探讨TRIM2在IFN-β表达中的直接作用机制。
技术路线:包括病毒学、分子生物学、细胞培养和免疫检测技术。
关键技术:TRIM2与病毒RNA的相互作用分析,IFN-β启动子活性检测。
实验模型:使用A型流感病毒感染的细胞模型进行研究。

AI技术路线图

        graph TD
          A[研究起始] --> B[文献回顾与假设提出]
          B --> C[实验设计与方法学准备]
          C --> D[A型流感病毒感染模型建立]
          D --> E[TRIM2与病毒RNA相互作用分析]
          E --> F[TRIM2对IFN-β启动子活性的影响]
          F --> G[IFN-β表达水平测定]
          G --> H[TRIM2功能丧失与获得研究]
          H --> I[数据收集与分析]
          I --> J[结果解释与科学验证]
          J --> K[研究结论与未来方向]
          K --> L[研究结束]
      
关闭
close
客服二维码