基于端到端深度学习框架的文本无关副语言语音属性识别研究
项目介绍
AI项目解读
基本信息
- 批准号:61773413
- 项目类别:面上项目
- 资助金额:60.0万
- 负责人:
- 依托单位:
- 学科分类:F0605.模式识别与数据挖掘
- 结题年份:2021
- 批准年份:2017
- 项目状态:已结题
- 起止时间:2018-01-01 至2021-12-31
- 项目参与者:bhiksha raj; 罗荻然; 禹之鼎; 蔡炜城; 刘文博; 赵文博; 温研东; 周天燕; 董俊优;
- 关键词:
项目摘要
Speech signal not only contains lexicon information, but also deliver various kinds of paralinguistic speech attribute information, such as speaker, language, gender, age, emotion, channel, voicing, psychological states, etc. The core technique question behind it is utterance level supervised learning based on text independent speech signal with flexible duration. End-to-end deep learning can automatically learn the discriminative feature and representation from a large set of labeled data using standard deep learning methods, therefore reduces the need of domain prior knowledge. In this project, we propose to combine these paralinguistic speech attributes recognition tasks together into one problem, and use end-to-end deep learning methods to solve. We propose a encoding layer design with dictionary learning and statistics calculation function, which makes the end-to-end system capable to deal with text dependent flexible duration speech attribute recognition task; we plan to design better network structure and objective function to fit different paralinguistics tasks; we will use many speech transformation, speech conversion and speech manipulation methods to perform training data augmentation in order to increase the size of labeled training data; we will also better utilize many different databases with different paralinguistic speech attributes together to perform transfer learning, multitask learning and joint learning to assist the tasks with small scale training data. This project will bring new concepts to many paralinguistic speech attribute recognition tasks with important theoretical impact and application value.
语音不仅包含语言语义信息,同时也传达了说话人,语种,性别,年龄,情感,信道,嗓音,心理等多种丰富的副语言语音属性信息。这一类语音属性识别的共同核心问题是针对不定时长文本无关的句子层面语音信号的有监督学习。端到端深度学习框架可通过通用深度神经网络架构和大量有标注数据来自动地学习对分类有意义的底层特征和中层表示,减少了对特定属性先验知识的依赖。我们首次提出把这一类识别问题合并,在一个相对统一的端到端深度学习框架内开展文本无关副语言语音属性识别研究。我们提出带字典学习和统计量计算功能的编码层,使得端到端系统可以处理文本无关不定时长语音属性识别问题;设计更合适的模型结构和目标函数来适应不同的语音属性识别任务; 通过多种语音变换来扩充训练数据的规模;综合利用多种不同属性的数据库展开迁移学习,多任务学习和多数据库联合学习研究。本项目为副语言语音属性识别这类问题带来新思路,具有重要的理论意义与实际价值。
结项摘要
语音不仅包含语言语义信息,同时也传达了说话人,语种,性别,年龄,情感,信道,嗓音,心理等多种丰富的副语言语音属性信息。这一类语音属性识别的共同核心问题是针对不定时长文本无关的句子层面语音信号的有监督学习。端到端深度学习框架可通过通用深度神经网络架构和大量有标注数据来自动地学习对分类有意义的底层特征和中层表示,减少了对特定属性先验知识的依赖。我们提出把这一类识别问题合并,在一个相对统一的端到端深度学习框架内开展文本无关副语言语音属性识别研究。主要研究内容是面向文本无关的多种副语言语音属性识别任务,在端到端深度学习的框架内,从模型结构,目标函数,迁移学习和多属性多数据库联合识别这几个方向展开研究。我们提出带字典学习和统计量计算功能的编码层以及基于多种注意力机制的编码层设计,使得端到端系统可以处理文本无关不定时长语音属性识别问题;设计更合适的模型结构和目标函数来适应不同的语音属性识别任务,把相关联的任务集成在一个模型里,开展前后端联合建模; 面对远场短时高噪声跨信道跨语言等复杂场景,通过多种语音变换和数据增强策略来扩充训练数据的规模;综合利用多种不同属性的数据库展开迁移学习,多任务学习和多数据库联合学习研究,使得系统在低资源场景提高性能。我们围绕声纹识别,语种识别,情感识别,关键词识别,说话人日志,声学事件分类,防攻击检测等一系列核心副语言语音属性识别任务,取得了多项研究成果。带领团队获得了Interspeech19 Computational Paralinguistics Challenge第一,ASRU19 阿拉伯语语种识别第一, Interspeech20 fearless steps challenge说话人识别第一, Interspeech21 fearless steps challenge 说话人识别第一和说话人日志第一, ASVspoof21 回放攻击检测第一名,VoxSRC21 自监督声纹第一和说话人日志第一,算法性能名列国际前沿。我们同时还开展了针对特定人的语音分离,语音合成、语音变声等一些列关联任务的研究,为防攻击检测和识别任务扩展数据增强手段。共发表SCI期刊论文8篇,EI国际会议论文37篇,提交发明专利申请8项,开源数据库4个,举办国际评测2项。
项目成果
期刊论文数量(8)
专著数量(0)
科研奖励数量(0)
会议论文数量(37)
专利数量(8)
Audio-Based Piano Performance Evaluation for Beginners With Convolutional Neural Network and Attention Mechanism
基于卷积神经网络和注意力机制的初学者钢琴演奏音频评估
- DOI:10.1109/taslp.2021.3061267
- 发表时间:2021
- 期刊:IEEE/ACM Transactions on Audio, Speech, and Language Processing
- 影响因子:--
- 作者:Wang Weiqing;Pan Jing;Yi Hua;Song Zhanmei;Li Ming
- 通讯作者:Li Ming
Facial Expression Recognition with Identity and Emotion Joint Learning
身份与情感联合学习的面部表情识别
- DOI:10.1109/taffc.2018.2880201
- 发表时间:2018
- 期刊:IEEE Transactions on Affective Computing
- 影响因子:11.2
- 作者:Ming Li;Hao Xu;Xingchang Huang;Zhanmei Song;Xiaolin Liu;Xin Li
- 通讯作者:Xin Li
Discriminative Dictionary Learning for Autism Spectrum Disorder Identification.
自闭症谱系障碍识别的判别词典学习
- DOI:10.3389/fncom.2021.662401
- 发表时间:2021
- 期刊:Frontiers in computational neuroscience
- 影响因子:3.2
- 作者:Liu W;Li M;Zou X;Raj B
- 通讯作者:Raj B
An automated assessment framework for atypical prosody and stereotyped idiosyncratic phrases related to autism spectrum disorder
与自闭症谱系障碍相关的非典型韵律和刻板特质短语的自动评估框架
- DOI:10.1016/j.csl.2018.11.002
- 发表时间:2019-07-01
- 期刊:COMPUTER SPEECH AND LANGUAGE
- 影响因子:4.3
- 作者:Li, Ming;Tang, Dengke;Zou, Xiaobing
- 通讯作者:Zou, Xiaobing
Typical Facial Expression Network Using a Facial Feature Decoupler and Spatial-Temporal Learning
使用面部特征解耦器和时空学习的典型面部表情网络
- DOI:10.1109/taffc.2021.3102245
- 发表时间:2023-04
- 期刊:IEEE Transactions on Affective Computing
- 影响因子:11.2
- 作者:Jianing Teng;Dong Zhang;Wei Zou;Ming Li;Dah-Jye Lee
- 通讯作者:Dah-Jye Lee
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--"}}
- 发表时间:{{ item.publish_year || "--" }}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--"}}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ patent.updateTime }}
其他文献
牛分枝杆菌PPE68与Mb1230以及PPE57和PE-PGRS35的表达纯化及其在牛结核病血清学诊断中的初步应用
- DOI:10.16656/j.issn.1673-4696.2019.0007
- 发表时间:2018
- 期刊:中国兽医科学
- 影响因子:--
- 作者:李明;张雅娜;林伟东;隋修锟;贾红;侯绍华;姜一曈;房立春;朱鸿飞;鑫婷
- 通讯作者:鑫婷
温度场作用下悬臂输流碳纳米管的颤振失稳分析
- DOI:10.19636/j.cnki.cjsm42-1250/o3.2018.028
- 发表时间:2018
- 期刊:固体力学学报
- 影响因子:--
- 作者:李明;方康;郑华升
- 通讯作者:郑华升
Dependence of a class of non-integer power functions
一类非整数幂函数的依赖性
- DOI:10.1016/j.jksus.2015.11.003
- 发表时间:2016-10
- 期刊:Journal of King Saud University - Science
- 影响因子:--
- 作者:李明
- 通讯作者:李明
变应性鼻炎患者口咽部菌群分析
- DOI:10.13381/j.cnki.cjm.201506003
- 发表时间:2015
- 期刊:中国微生态学杂志
- 影响因子:--
- 作者:袁晓鹏;徐星澈;唐立;张瑾;丁锐;庞立园;刘银辉;李华军;郭艳杰;李明;袁杰力;戴晓东;文姝
- 通讯作者:文姝
木材模拟声发射源的产生与特性
- DOI:10.13759/j.cnki.dlxb.2021.06.019
- 发表时间:2021
- 期刊:东北林业大学学报
- 影响因子:--
- 作者:王明华;邓婷婷;方塞银;李晓崧;赖菲;李明
- 通讯作者:李明
其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--" }}
- 发表时间:{{ item.publish_year || "--"}}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--" }}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}

内容获取失败,请点击重试

查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:
AI项目摘要
AI项目思路
AI技术路线图

请为本次AI项目解读的内容对您的实用性打分
非常不实用
非常实用
1
2
3
4
5
6
7
8
9
10
您认为此功能如何分析更能满足您的需求,请填写您的反馈:
李明的其他基金
面向复杂应用场景的高鲁棒性说话人日志算法研究
- 批准号:
- 批准年份:2021
- 资助金额:57 万元
- 项目类别:面上项目
面向复杂应用场景的高鲁棒性说话人日志算法研究
- 批准号:62171207
- 批准年份:2021
- 资助金额:57.00 万元
- 项目类别:面上项目
相似国自然基金
{{ item.name }}
- 批准号:{{ item.ratify_no }}
- 批准年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}
相似海外基金
{{
item.name }}
{{ item.translate_name }}
- 批准号:{{ item.ratify_no }}
- 财政年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}