面向海量语音信息处理的垃圾过滤和数据选择方法研究
项目介绍
AI项目解读
基本信息
- 批准号:61005019
- 项目类别:青年科学基金项目
- 资助金额:21.0万
- 负责人:
- 依托单位:
- 学科分类:F0605.模式识别与数据挖掘
- 结题年份:2013
- 批准年份:2010
- 项目状态:已结题
- 起止时间:2011-01-01 至2013-12-31
- 项目参与者:何亮; 栗志意; 李曜; 邓妍; 单煜翔; 钱彦旻; 袁桦; 陈红红; 陈谐;
- 关键词:
项目摘要
本项目结合语种识别和说话人识别的具体应用,针对海量语音数据垃圾过滤和数据选择问题进行创新研究,这既是目前国际上重要的研究热点,也是语音信息处理系统推向实用化的核心技术。本项目主要包括8个方面的研究内容:(1)结合信号处理和统计模式识别方法,研究稳健的垃圾数据的过滤技术。(2)针对不同信道情况,研究高效的噪声消除算法。(3)研究复杂信道条件下稳健的端点检测处理技术。(4)结合因子分析技术研究说话人分割和聚类算法。(5)结合先验知识研究语种分割和聚类算法。(6)研究垃圾数据干扰说话人识别的机理,从理论上探索说话人识别依赖严重预处理的根源。(7)研究不同类型语音对说话人识别的影响,对说话人识别的数据选择提供理论指导。(8)研究数据选择算法,去除大量重复的和无代表性的数据。通过以上研究成果,大大提高复杂环境和实际应用条件下语种识别和说话人识别准确率和稳健性。该研究具有重大的理论意义和应用价值。
结项摘要
本项目结合语种识别和说话人识别的具体应用,针对海量语音数据垃圾过滤和数据选择问题进行创新研究,探究前端不同类型数据对后端特征提取和模型训练造成影响的本质,完善各种数据预处理算法的性能,提高复杂信道和实际应用条件下语种识别和说话人识别系统的识别率和稳健性。整个研究按计划进行,按质按量地完成了本项目的研究工作。研究中获得多项有价值的成果:(1)研究稳健的垃圾数据的过滤技术,结合信号处理和统计模式识别方法,构建了一种高效的垃圾过滤系统,可快速准确过滤电话中的拨号音、提示音、传真、彩铃音乐等垃圾信号。(2)研究高效的噪声消除算法,对比了维纳滤波和Mel域维纳滤波,结果表明Mel域维纳滤波在噪声条件下可以提高说话人识别的性能。(3)研究复杂信道条件下稳健的端点检测处理技术,提出一种基于交叉熵顺序统计滤波的语音端点检测算法,提高了端点检测的稳健性。(4)研究说话人分割和聚类算法,提出一种基于K均值和因子分析的说话人分割聚类算法,改善了说话人分割聚类的性能。 (5)结合先验知识研究语种分割和聚类算法,提出一种联合语种识别的新型连续语音识别算法,可以在语音识别的同时高效地进行语种的分割和识别。(6)研究垃圾数据干扰说话人识别的机理,发现了语音在每个高斯分量上呈现一种“随机”分布,而噪声却集中在少数的高斯分量上,基本摸清了噪声影响说话人识别的本质,为后续研究奠定了基础。(7)研究不同类型语音对说话人识别的影响,对辅音进行筛选,去除无益于说话人识别的干扰辅音音素,去除静音干扰音,从而实现对语音的择优选取,提高了说话人识别的性能。(8)研究数据选择算法,提出了一种两阶段的音位特征选择算法,提高了语种识别的性能。通过以上研究成果,大大提高复杂环境和实际应用条件下语种识别和说话人识别准确率和稳健性。. 采用本项目成果,构建了面向海量数据的垃圾过滤系统一套,该系统2013年参加国内某单位的招标评测,电话语音垃圾过滤准确率达99.67%,在四家国内知名单位中排名第一。采用本项目成果,构建说话人识别系统,2012年参加NIST说话人评测,在全世界58家参赛单位中,带噪电话语音核心测试排名第五。. 在本项目研究过程中,发表或录用期刊论文24篇(其中SCI论文7篇)、会议论文21篇、书籍章节1篇,申请国家发明专利3项,培养博士研究生9名,硕士研究生4名。各项指标超过项目计划要求。
项目成果
期刊论文数量(24)
专著数量(0)
科研奖励数量(0)
会议论文数量(21)
专利数量(3)
RNN language model with word clustering and class-based output layer
具有词聚类和基于类别的输出层的 RNN 语言模型
- DOI:--
- 发表时间:2013
- 期刊:EURASIP Journal on Audio Speech and Music Processing
- 影响因子:2.4
- 作者:Shi Y Z;Zhang W Q;Liu J;Johnson M T
- 通讯作者:Johnson M T
基于无监督迁移分量分析的语种识别
- DOI:--
- 发表时间:2013
- 期刊:清华大学学报(自然科学版)
- 影响因子:--
- 作者:徐嘉明;张卫强;刘加;夏善红
- 通讯作者:夏善红
一种基于帧-音符方式的哼唱检索算法
- DOI:--
- 发表时间:2011
- 期刊:清华大学学报(自然科学版)
- 影响因子:--
- 作者:郭敏;张卫强;刘加
- 通讯作者:刘加
一种新的基于子空间的说话人自适应方法
- DOI:--
- 发表时间:2011
- 期刊:自动化学报
- 影响因子:--
- 作者:张文林;张卫强;刘加;李弼程;屈丹
- 通讯作者:屈丹
Exploiting contextual information for prosodic event detection using auto-context
使用自动上下文利用上下文信息进行韵律事件检测
- DOI:10.1101/2021.09.29.21264171
- 发表时间:2013
- 期刊:EURASIP Journal on Audio Speech and Music Processing
- 影响因子:2.4
- 作者:Zhao J H;Zhang W Q;Yuan H;Johnson M;Liu J;Xia S H
- 通讯作者:Xia S H
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--"}}
- 发表时间:{{ item.publish_year || "--" }}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--"}}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ patent.updateTime }}
其他文献
分数阶傅立叶变换域上带通信号的
- DOI:--
- 发表时间:--
- 期刊:电子学报, Vol.33, No.7, pp.1196-1199, 2005.7
- 影响因子:--
- 作者:张卫强;陶然
- 通讯作者:陶然
发音错误检测中基于多数据流的Tandem特征方法
- DOI:--
- 发表时间:2014
- 期刊:计算机应用
- 影响因子:--
- 作者:蔡猛;赵军红;张卫强;刘加
- 通讯作者:刘加
基于声学模型共享的零资源韩语语音识别
- DOI:--
- 发表时间:2023
- 期刊:数据采集与处理
- 影响因子:--
- 作者:王皓宇;Eunah JEON;张卫强;李科;黄宇凯
- 通讯作者:黄宇凯
一种基于计算听觉场景分析的语音增强算法
- DOI:--
- 发表时间:2015
- 期刊:天津大学学报(自然科学与工程技术版)
- 影响因子:--
- 作者:张卫强;郭璁;张乔;康健;何亮;刘加;Johnson Michael T
- 通讯作者:Johnson Michael T
基于鉴别性向量空间模型的语种识别
- DOI:--
- 发表时间:2013
- 期刊:清华大学学报(自然科学版)
- 影响因子:--
- 作者:刘巍巍;张卫强;刘加
- 通讯作者:刘加
其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--" }}
- 发表时间:{{ item.publish_year || "--"}}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--" }}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
内容获取失败,请点击重试
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:
AI项目摘要
AI项目思路
AI技术路线图
请为本次AI项目解读的内容对您的实用性打分
非常不实用
非常实用
1
2
3
4
5
6
7
8
9
10
您认为此功能如何分析更能满足您的需求,请填写您的反馈:
张卫强的其他基金
基于自监督预训练模型的异常声音检测
- 批准号:
- 批准年份:2022
- 资助金额:53 万元
- 项目类别:面上项目
复杂环境下语音数据的说话人识别及关键词检索
- 批准号:U1836219
- 批准年份:2018
- 资助金额:249.0 万元
- 项目类别:联合基金项目
噪声和短语音条件下的说话人识别
- 批准号:61370034
- 批准年份:2013
- 资助金额:82.0 万元
- 项目类别:面上项目
相似国自然基金
{{ item.name }}
- 批准号:{{ item.ratify_no }}
- 批准年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}
相似海外基金
{{
item.name }}
{{ item.translate_name }}
- 批准号:{{ item.ratify_no }}
- 财政年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}