复杂场景下的说话人特征提取及识别研究
项目介绍
AI项目解读
基本信息
- 批准号:61876160
- 项目类别:面上项目
- 资助金额:62.0万
- 负责人:
- 依托单位:
- 学科分类:F0605.模式识别与数据挖掘
- 结题年份:2022
- 批准年份:2018
- 项目状态:已结题
- 起止时间:2019-01-01 至2022-12-31
- 项目参与者:李琳; 黎荣晋; 周健峰; 赵淼; 颜世江; 尚凤仪; 肖乐; 张宁;
- 关键词:
项目摘要
Speaker recognition (also named voiceprint recognition) is one of key technologies of speech interaction, and can be widely used for identity authentication. But its performance might deteriorate greatly under the scenes of short utterance, domain mismatch, noisy/far-field interference. To improve the robustness of speaker recognition under the complex sceces, this project will conduct the innovative studies of three fields. Firstly, for the case of short utterance, we adopt ResNet, Attention mechanism and Filler nodes, to design the discriminative network and extract the utterance-level speaker feature (speaker embedding). The speaker recognition system will be built based on x-vector. Secondly, for the case of domain mismatch, we apply the method of transfer learning to make adaptative training of x-vector extraction network and probability linear discriminative analysis (PLDA) classifier, which hope to improve the recognition performance of cross-channel or cross-language. Thirdly, for the case of noisy/far-field interference, we adopt the generative adversarial network (GAN) to extract the noise-robust deep feature, and further design a new GAN-based speaker recognition system fused with the x-vector extraction. This project will be based on our foundation of related studies, and focus on the key problems. The contributions hope to have important academic significance and high application value.
说话人识别(又称声纹识别)是人机语音交互关键技术之一,可广泛应用于身份认证,但在短语音、领域不匹配、噪声/远场干扰等场境下,其性能会急剧下降。为提高复杂场景下说话人识别的鲁棒性,本项目拟开展三个方面的创新性研究:(1)针对短语音,采用残差网络(ResNet)、Attention机制、Filler节点,设计区分性网络,提取段级别的说话人特征(Speaker Embedding),构建基于x-vector的说话人识别系统。(2)针对领域不匹配,采用迁移学习方法,对x-vector提取网络、概率线性区分分析(PLDA)分类器做自适应训练,以提高跨信道、跨语种的识别性能。(3)针对噪声/远场干扰,采用生成式对抗网络(GAN),提取对噪声鲁棒的深度特征;并融合x-vector提取过程,设计新的GAN说话人识别系统。本项目立足课题组已有基础,聚焦关键问题,研究成果具有重要的学术意义和较高的应用价值。
结项摘要
本项目主要针对短语音、领域不匹配、噪声/远场等复杂场景,开展说话人特征(即Speaker Embedding)如何有效提取和识别的研究,内容涉及网络框架、生成式对抗网络(GAN)训练、概率线性区分性分析(PLDA)等方面。.本项目进展顺利,总体按研究计划执行,在三个关键科学问题做了深入探索,根据实验结果也做了局部调整。项目初期首先分析了帧级别和段级别特征的优缺点,有前瞻性地采用x-vector这种段级别特征。针对短语音问题,本项目对x-vector网络做了深入研究,包括Attention机制和Squeeze-and-Excitation(SE)组件,率先实现了ResNet-SE、Conformer等改进版网络;经实验对比,没有采用原有方案的filler节点,而是采用区分性损失函数,如AAM-Softmax。针对领域不匹配问题,深入研究x-vector迁移学习和多任务学习框架,取得明显提升效果,尤其是文本相关任务;PLDA迁移学习侧重点有所调整,主要采用自适应方案,另外拓展了错误标签纠正技术的研究,实现了带噪标签PLDA(NL-PLDA)的训练。针对噪声/远场干扰问题,本项目按预定的研究目标,成功设计出生GAN框架,包括生成网络和判别网络,有效提取新的深度特征,并跟说话人识别任务融合起来。后续进一步提出基于对抗性学习的深度表征分解方法,使得网络训练更稳定,并有效改善语速不匹配问题。.本项目已在IEEE/ACM Transactions on Audio, Speech, and Language Processing (TASLP)和ICASSP/Interspeech等权威刊物、顶级和旗舰会议发表32篇展示创新性研究成果的论文,相关工作被新加坡国立大学、腾讯AI实验室、西北工业大学等国内外同行引用。与知名企业合作,项目成果已应用到智能手机、电力调度等产品系统。2020年5月,本项目发布了国内第一套声纹识别开源工具ASV-Subtools,集成TDNN、E-TDNN、F-TDNN、ECAPA-TDNN、RepVGG、Conformer等网络,为OLR、CNSRC国际语音评测提供基线系统,同时助力国内外学术研究。
项目成果
期刊论文数量(4)
专著数量(0)
科研奖励数量(0)
会议论文数量(28)
专利数量(4)
基于端到端的多语种语音识别研究
- DOI:10.16798/j.issn.1003-0530
- 发表时间:2021
- 期刊:信号处理
- 影响因子:--
- 作者:胡文轩;王秋林;李松;洪青阳;李琳
- 通讯作者:李琳
When Speaker Recognition Meets Noisy Labels: Optimizations for Front-ends and Back-ends
当说话人识别遇到嘈杂的标签时:前端和后端的优化
- DOI:10.1109/taslp.2022.3169977
- 发表时间:2022
- 期刊:IEEE/ACM Transactions on Audio, Speech, and Language Processing
- 影响因子:--
- 作者:Lin Li;Fuchuan Tong;Qingyang Hong
- 通讯作者:Qingyang Hong
Deep joint learning for language recognition
语言识别的深度联合学习
- DOI:10.1016/j.neunet.2021.03.026
- 发表时间:2021
- 期刊:Neural Networks
- 影响因子:7.8
- 作者:Li Lin;Li Zheng;Liu Yan;Hong Qingyang
- 通讯作者:Hong Qingyang
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--"}}
- 发表时间:{{ item.publish_year || "--" }}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--"}}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ patent.updateTime }}
其他文献
采用可调波束形成器的GSC麦克风阵列语音增强方法
- DOI:--
- 发表时间:2013
- 期刊:厦门大学学报(自然科学版)
- 影响因子:--
- 作者:李芳兰;周跃海;童峰;洪青阳
- 通讯作者:洪青阳
采用DTW算法和语音增强的嵌入式声纹识别系统
- DOI:--
- 发表时间:2012
- 期刊:厦门大学学报(自然科学版)
- 影响因子:--
- 作者:周跃海;童峰;洪青阳
- 通讯作者:洪青阳
其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--" }}
- 发表时间:{{ item.publish_year || "--"}}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--" }}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
内容获取失败,请点击重试
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:
AI项目摘要
AI项目思路
AI技术路线图
请为本次AI项目解读的内容对您的实用性打分
非常不实用
非常实用
1
2
3
4
5
6
7
8
9
10
您认为此功能如何分析更能满足您的需求,请填写您的反馈:
洪青阳的其他基金
基于图结构建模的说话人日志研究
- 批准号:62276220
- 批准年份:2022
- 资助金额:53 万元
- 项目类别:面上项目
基于迁移学习的跨信道说话人识别研究
- 批准号:61105026
- 批准年份:2011
- 资助金额:24.0 万元
- 项目类别:青年科学基金项目
相似国自然基金
{{ item.name }}
- 批准号:{{ item.ratify_no }}
- 批准年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}
相似海外基金
{{
item.name }}
{{ item.translate_name }}
- 批准号:{{ item.ratify_no }}
- 财政年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}