基于端到端深度学习框架的文本无关副语言语音属性识别研究

结题报告

项目介绍

AI项目解读

基本信息

批准号：
61773413
项目类别：
面上项目
资助金额：
60.0万
负责人：
李明
依托单位：
昆山杜克大学
学科分类：
F0605.模式识别与数据挖掘
结题年份：
2021
批准年份：
2017
项目状态：
已结题
起止时间：
2018-01-01 至2021-12-31

项目参与者：
bhiksha raj；罗荻然；禹之鼎；蔡炜城；刘文博；赵文博；温研东；周天燕；董俊优；
关键词：
声纹识别语种识别情感识别端到端深度学习副语言信息识别

项目摘要

Speech signal not only contains lexicon information, but also deliver various kinds of paralinguistic speech attribute information, such as speaker, language, gender, age, emotion, channel, voicing, psychological states, etc. The core technique question behind it is utterance level supervised learning based on text independent speech signal with flexible duration. End-to-end deep learning can automatically learn the discriminative feature and representation from a large set of labeled data using standard deep learning methods, therefore reduces the need of domain prior knowledge. In this project, we propose to combine these paralinguistic speech attributes recognition tasks together into one problem, and use end-to-end deep learning methods to solve. We propose a encoding layer design with dictionary learning and statistics calculation function, which makes the end-to-end system capable to deal with text dependent flexible duration speech attribute recognition task; we plan to design better network structure and objective function to fit different paralinguistics tasks; we will use many speech transformation, speech conversion and speech manipulation methods to perform training data augmentation in order to increase the size of labeled training data; we will also better utilize many different databases with different paralinguistic speech attributes together to perform transfer learning, multitask learning and joint learning to assist the tasks with small scale training data. This project will bring new concepts to many paralinguistic speech attribute recognition tasks with important theoretical impact and application value.

语音不仅包含语言语义信息，同时也传达了说话人，语种，性别，年龄，情感，信道，嗓音，心理等多种丰富的副语言语音属性信息。这一类语音属性识别的共同核心问题是针对不定时长文本无关的句子层面语音信号的有监督学习。端到端深度学习框架可通过通用深度神经网络架构和大量有标注数据来自动地学习对分类有意义的底层特征和中层表示，减少了对特定属性先验知识的依赖。我们首次提出把这一类识别问题合并，在一个相对统一的端到端深度学习框架内开展文本无关副语言语音属性识别研究。我们提出带字典学习和统计量计算功能的编码层，使得端到端系统可以处理文本无关不定时长语音属性识别问题；设计更合适的模型结构和目标函数来适应不同的语音属性识别任务; 通过多种语音变换来扩充训练数据的规模；综合利用多种不同属性的数据库展开迁移学习，多任务学习和多数据库联合学习研究。本项目为副语言语音属性识别这类问题带来新思路，具有重要的理论意义与实际价值。

结项摘要

语音不仅包含语言语义信息，同时也传达了说话人，语种，性别，年龄，情感，信道，嗓音，心理等多种丰富的副语言语音属性信息。这一类语音属性识别的共同核心问题是针对不定时长文本无关的句子层面语音信号的有监督学习。端到端深度学习框架可通过通用深度神经网络架构和大量有标注数据来自动地学习对分类有意义的底层特征和中层表示，减少了对特定属性先验知识的依赖。我们提出把这一类识别问题合并，在一个相对统一的端到端深度学习框架内开展文本无关副语言语音属性识别研究。主要研究内容是面向文本无关的多种副语言语音属性识别任务，在端到端深度学习的框架内，从模型结构，目标函数，迁移学习和多属性多数据库联合识别这几个方向展开研究。我们提出带字典学习和统计量计算功能的编码层以及基于多种注意力机制的编码层设计，使得端到端系统可以处理文本无关不定时长语音属性识别问题；设计更合适的模型结构和目标函数来适应不同的语音属性识别任务，把相关联的任务集成在一个模型里，开展前后端联合建模; 面对远场短时高噪声跨信道跨语言等复杂场景，通过多种语音变换和数据增强策略来扩充训练数据的规模；综合利用多种不同属性的数据库展开迁移学习，多任务学习和多数据库联合学习研究，使得系统在低资源场景提高性能。我们围绕声纹识别，语种识别，情感识别，关键词识别，说话人日志，声学事件分类，防攻击检测等一系列核心副语言语音属性识别任务，取得了多项研究成果。带领团队获得了Interspeech19 Computational Paralinguistics Challenge第一，ASRU19 阿拉伯语语种识别第一, Interspeech20 fearless steps challenge说话人识别第一, Interspeech21 fearless steps challenge 说话人识别第一和说话人日志第一, ASVspoof21 回放攻击检测第一名，VoxSRC21 自监督声纹第一和说话人日志第一，算法性能名列国际前沿。我们同时还开展了针对特定人的语音分离，语音合成、语音变声等一些列关联任务的研究，为防攻击检测和识别任务扩展数据增强手段。共发表SCI期刊论文8篇，EI国际会议论文37篇，提交发明专利申请8项,开源数据库4个，举办国际评测2项。