唱歌辅助系统相关技术的研究
项目介绍
AI项目解读
基本信息
- 批准号:61761041
- 项目类别:地区科学基金项目
- 资助金额:37.0万
- 负责人:
- 依托单位:
- 学科分类:F0117.多媒体信息处理
- 结题年份:2021
- 批准年份:2017
- 项目状态:已结题
- 起止时间:2018-01-01 至2021-12-31
- 项目参与者:周刚; 黄志华; 钟秀娴; 包武杰; 张晶晶; 许莹莹; 董兴磊; 王国薇; 王俊超;
- 关键词:
项目摘要
This project dedicates it to the research of the technology associated with singing assistance. The following four aspect need to be further improved: singing voice separation, singing melody extraction, lyric transcription and the evaluation of singing performance. The project intends to make studies of (1) the monaural singing separation based on Non-negative Matrix Partial Co-Factorization and Deep Recurrent Neural Network; (2) the singing melody extraction based on the enhancement of singing harmonic component and the using of smoothness of pitch varying along the time. (3)the automatic lyrics transcription which includes the singing database extension based on feature transformation and spectrum transformation, and the singing modeling framework based on DNN-HMM (Deep Neural Network-Hidden Markov Model); (4) the evaluation of singing performance that combines the features highly according with the subject evaluation and the scoring mechanism based on the feature matching. This project focuses on the singing separation model and the melody extraction model, combing the theoretical analysis and experimental research, and making study of the lyrics transcription and the rational singing performance evaluation. These researches sever the theoretical foundation of singing assistance system.
本项目致力于唱歌辅助系统相关技术的研究,唱声分离、唱声旋律的自动提取、歌词自动转录和歌唱表现的合理评价亟需进一步提高性能。本项目拟研究:(1)基于非负矩阵部分联合分解和基于深度循环神经网络的单声道唱声分离算法;(2)基于唱声谐波增强,结合唱声音高的时域连续性和音高变化的平滑性的自动唱声旋律提取算法;(3)基于特征变换和频谱变换的唱声数据扩展,以深度神经网络-隐马尔可夫模型为基础的唱声建模方案,以优化序列级与识别目标更贴近的目标函数为标准的自动歌词转录算法;(4)基于与主观评价有着较高一致性的特征提取和多特征匹配模型的得分机制,提高歌唱表现的客观评价的合理性。本课题将理论分析和实验研究相结合,旨在建立唱歌辅助系统中唱声分离模型和旋律提取模型,探索有效歌词识别算法,实现唱声的有效分离、旋律的准确提取、歌词转录的准确性和鲁棒性,提高歌唱表现客观评价的合理性,为唱歌辅助系统的应用奠定理论基础。
结项摘要
本项目做了四个方面的研究,具体内容和创新成果如下:.A.唱声分离和语音分离.针对单通道歌曲唱声分离任务,提出一种基于嵌套U-Net和时频掩蔽的声分离算法,同时重构出分离的唱声和伴奏。还提出一种基于双注意力机制和多阶段混合卷积网络的分离模型,也同时输出分离的唱声和伴奏。我们提出的网络具有较小参数量,在三种数据集上获得了优异的唱声分离和伴奏分离性能。.针对单通道混合语音的多说话人语音分离任务,提出一种基于浅层特征重激活机制和多阶段混合注意力机制多说话人语音分离模型,以及一种基于门控残差卷积深度聚类的语音分离模型,这两种模型均同时输出多个目标说话人语音的时域波形。.B.音乐的音高估计.针对音乐的单音音高估计,我们提出一种数据驱动的双注意力网络的音高估计模型,直接对单音音乐的时域波形进行处理,输出一个360维向量,代表360种音高。实验结果显示,具有紧耦合模式的双注意力网络在两种数据集上达到最佳性能。.C.语音情感识别.针对对话语音的情感识别,提出了一中基于深度可分离卷积和反向残差连接的语音情感识别模型,该模型对4类情感识别任务,在语料库 IEMOCAP 和 EmoDB 上的分别达到了71.72%和 90.1%的未加权精度 UA。与目前已知参数量最少的模型相比,我们提出的模型的参数量降低了 5 倍。.提出一种基于多模态交互注意力机制的语音情感识别模型。采用音频和文本两种模态的信息实现语音情感识别已经达到了国际领先的水平,对于7类情感的分类任务,在IEMOCAP语料库的加权准确率达到72.8%,非加权准确率达到62.5%。.D.声音事件检测和声源定位.针对声音事件检测和分类,提出一种基于选择性特征融合的声音事件检测网络。提出的算法在三个指标上在DCASE2018验证集上对比国内国际同行的方法均有一定的提升。.针对声源定位和声音事件检测的联合任务,提出了一种基于自适应混合卷积和多尺度特征提取的声音事件定位与检测算法,该算法能够很好地处理噪声和混响场景下的声源定位与检测任务。与其他主流的算法相比,我们的算法在6种数据集上都取得了较好的结果。
项目成果
期刊论文数量(8)
专著数量(0)
科研奖励数量(0)
会议论文数量(3)
专利数量(3)
引入外部记忆的循环神经网络的口语理解
- DOI:--
- 发表时间:2019
- 期刊:计算机工程与应用
- 影响因子:--
- 作者:许莹莹;黄浩
- 通讯作者:黄浩
A transfer learning approach to goodness of pronunciation based automatic mispronunciation detection
基于自动发音错误检测的发音良好度的迁移学习方法
- DOI:10.1121/1.5011159
- 发表时间:2017
- 期刊:Journal of the Acoustical Society of America
- 影响因子:2.4
- 作者:Huang Hao;Xu Haihua;Hu Ying;Zhou Gang
- 通讯作者:Zhou Gang
Dual Attention Network for Pitch Estimation of Monophonic Music
用于单音音乐音高估计的双重注意网络
- DOI:10.3390/sym13071296
- 发表时间:2021-07
- 期刊:Symmetry
- 影响因子:--
- 作者:Ma Wenfang;Hu Ying;Huang Hao
- 通讯作者:Huang Hao
基于迁移学习的低资源度维吾尔语语音识别
- DOI:--
- 发表时间:--
- 期刊:计算机工程
- 影响因子:--
- 作者:王俊超;黄浩;徐海华;胡英
- 通讯作者:胡英
循环神经网络中基于特征融合的口语理解
- DOI:--
- 发表时间:--
- 期刊:现代电子技术
- 影响因子:--
- 作者:张晶晶;黄浩;胡英;吾守尔.斯拉木
- 通讯作者:吾守尔.斯拉木
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--"}}
- 发表时间:{{ item.publish_year || "--" }}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--"}}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ patent.updateTime }}
其他文献
正离子Gemini表面活性剂/负离子
- DOI:--
- 发表时间:--
- 期刊:化学学报,63(14), 2005: 1281-1287
- 影响因子:--
- 作者:皮瑛瑛;尚亚卓;刘洪来;胡英
- 通讯作者:胡英
The characterization of cationic fusogenic liposome mediated antisense oligonucleotides into HeLa cells
阳离子融合脂质体介导的反义寡核苷酸进入 HeLa 细胞的表征
- DOI:--
- 发表时间:--
- 期刊:Drug development and industrial pharmacy
- 影响因子:3.4
- 作者:金一;胡英
- 通讯作者:胡英
星形共聚高分子微相分离的DPD模
- DOI:--
- 发表时间:--
- 期刊:华东理工大学学报,32(2), 133-139(2006)
- 影响因子:--
- 作者:徐毅;冯剑;刘洪来*;胡英
- 通讯作者:胡英
复杂材料的微相分离和结构演变
- DOI:--
- 发表时间:--
- 期刊:化工学报,54(4), 440-447(2003)
- 影响因子:--
- 作者:刘洪来*;胡英
- 通讯作者:胡英
Gemini表面活性剂在气/液界面上
- DOI:--
- 发表时间:--
- 期刊:华东理工大学学报,30(6), 665-668(2004)
- 影响因子:--
- 作者:陈启斌;董亚明;刘洪来*;胡英
- 通讯作者:胡英
其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--" }}
- 发表时间:{{ item.publish_year || "--"}}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--" }}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
内容获取失败,请点击重试
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:
AI项目摘要
AI项目思路
AI技术路线图
请为本次AI项目解读的内容对您的实用性打分
非常不实用
非常实用
1
2
3
4
5
6
7
8
9
10
您认为此功能如何分析更能满足您的需求,请填写您的反馈:
相似国自然基金
{{ item.name }}
- 批准号:{{ item.ratify_no }}
- 批准年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}
相似海外基金
{{
item.name }}
{{ item.translate_name }}
- 批准号:{{ item.ratify_no }}
- 财政年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}