汉语耳语音感知中关键技术研究

结题报告

项目介绍

AI项目解读

基本信息

批准号：
61340004
项目类别：
专项基金项目
资助金额：
9.0万
负责人：
陈雪勤
依托单位：
苏州大学
学科分类：
F0111.信号理论与信号处理
结题年份：
2014
批准年份：
2013
项目状态：
已结题
起止时间：
2014-01-01 至2014-12-31

项目参与者：
俞一彪；龚呈卉；张庆芳；施亚；谭英明；
关键词：
听觉表示主动学习语音感知非线性降维汉语耳语音

项目摘要

Semantics is the main object of whispered speech perception. This project plans to study on the characteristics representation and model optimization method of Chinese whispered speech perception. Based on the peripheral auditory pathway and auditory neural processing mechanism, the auditory cortex perception spectrum of whispered speech is represented. Then the low dimensional characteristics with topological structure of whispered speech is obtained by nonlinear dimension reduction method. A method is proposed to improve the discrimination and robustness of the above characteristics based on strengthening the time axis wight of topological structure characteristics and non-semantix information suppression locality preserving projection. A kind of corpus construction mode is put forward. The corpus consists of three sub-corpus which are called: "mother corpus", "family corpus" and "society corpus". The initial acoustic model, which is obtained by training the annotated "mother corpus" and "family corpus", is used to recognized the unannotating data of "society corpus". We propose a confidence measure criterion based on whispered speech features and the data with low confidence measure is returned. The feedback data is annotated to train and optimize the initial model, which can reduce the manual annotataion cost and optimizate the regional model. This research aims to establish a whispered speech perception system based on the auditory spectrum dimension reduction characteristics and active learning model. This research is significant for auditory perception theory and its realization methods can be widely used in human machine interaction system, national security system, medical system and some other fields. The research also have reference value for normal speech recognization and speech enhancement.

语义是耳语音感知的主要目标。本项目拟研究耳语音感知中特征表示及模型优化方法。本项目根据外围听觉通路和听神经处理机制，提取耳语音听觉皮层感知谱，并非线性降维得到耳语音拓扑结构低维特征。提出通过加强拓扑结构时序性和非语义信息抑制的局部保距投影方法提高特征的区分性和稳健性。提出"母亲库"、"家庭库"、"社会库"的语料建库方式。首先用已标注的"母亲库"和"家庭库"训练初始声学模型，进而由初始模型对未标注的"社会库"进行识别，根据所设计的符合耳语音特征的置信度计算方法，选择低置信度样本反馈作标注后对模型进行优化训练，达到降低样本标注工作量和模型区域优化的目的。本研究拟建立一个基于听觉谱非线性降维拓扑结构特征和反馈式学习模型的汉语耳语音感知实验系统，并进行测试分析。本研究不仅对听觉感知理论深入探索有理论意义，而且在物联网人机交互、安全、医学等领域有实际应用前景，对正常语音识别以及语音增强也有参考意义。

结项摘要

耳语音是一种特殊的发音模式。人们在某种特定场合下为了避免影响他人而使用耳语进行手机通话，国家安全部门安全保密工作及侦察与反侦察的需要，金融部门保障客户的私密信息及身份认证的需要，嗓音病人或发音功能不正常者进行的语音交流等。耳语音由于音量低，无基频,其分析方法有别于正常语音，本项目主要研究数字耳语音识别方法。取得以下研究成果：（1）耳语音的端点检测是系统识别性能的关键环节。根据耳语音的特性，本项目提出一种邻域极值差分信号功率谱的分形维值算法，用于低信噪比环境下的语音活动检测。该方法在语音端点检测和效率两方面具有良好的综合性能。（2）耳语音的声调估计是一个难题。考虑声道参数与激励之间的协变关系建立了一个语料一致的耳语音和正常语音数据库，该数据库中耳语音和正常语音的说话人、语音内容、语序完全一致。将耳语音的线性预测倒谱参数、正常语音线性预测倒谱参数和基频参数对齐，将其划分为40个区间，对每个区间的数据训练一个高斯混合模型并得到一个估计函数。估计阶段，提取耳语音的线性预测倒谱参数，将其与每一个高斯混合模型匹配，搜索最佳匹配的模型，然后采用该模型的估计函数估计耳语音的F0值。（3）耳语音和正常音的许多不同点，本项目比较了汉语数字正常音和耳语音的声学特征，分析了正常音和耳语音的数字区分度，同时建立了一个汉语数字语音识别系统，比较了耳语音和正常音的识别率。在相同特征的情况下，无论是孤立字之间的区分度还是最终识别率，耳语音的效果都不如正常语音。为改善识别率，根据特征距离的特点找到数字耳语音中易混淆发音，并进一步采用多级判据进行识别。（4）本项目对耳语音提取听觉感知频谱以改善识别率。根据皮层表征模型，对耳语音信号的能量谱在不同尺度和朝向进行卷积并滤波。进一步对特征做稀疏平均和降维，此特征可保留信号听觉谱的拓扑结构，对于数字耳语音识别率有比较明显的改善。

项目成果

期刊论文数量（0）

专著数量（0）

科研奖励数量（0）

会议论文数量（3）

专利数量（0）

数据更新时间：{{ journalArticles.updateTime }}

DOI：
{{ item.doi || "--"}}
发表时间：
{{ item.publish_year || "--" }}
期刊：
{{ item.journal_name }}
影响因子：
{{ item.factor || "--"}}
作者：
{{ item.authors }}
通讯作者：
{{ item.author }}

数据更新时间：{{ journalArticles.updateTime }}

作者：
{{ item.authors }}

数据更新时间：{{ monograph.updateTime }}

作者：
{{ item.authors }}

数据更新时间：{{ sciAawards.updateTime }}

作者：
{{ item.authors }}

数据更新时间：{{ conferencePapers.updateTime }}

作者：
{{ item.authors }}

数据更新时间：{{ patent.updateTime }}

其他文献

低信噪比环境下语音检测的邻域极值差分信号功率谱分维算法

DOI：
--
发表时间：
2013
期刊：
应用科学学报
影响因子：
--
作者：
陈雪勤;俞一彪;赵鹤鸣
通讯作者：
赵鹤鸣

蚁群聚类神经网络的耳语音声调识别

DOI：
--
发表时间：
--
期刊：
应用科学学报
影响因子：
--
作者：
俞一彪;赵鹤鸣;陈雪勤
通讯作者：
陈雪勤

倒谱参数稀疏分解下的汉语音谎言检测

DOI：
--
发表时间：
2018
期刊：
声学学报
影响因子：
--
作者：
樊晓鹤;赵鹤鸣;陈雪勤;周燕
通讯作者：
周燕

Research of whispered speech vocal tract system conversion based on universal background model and effective Gaussian components

基于通用背景模型和有效高斯分量的耳语语音声道系统转换研究

DOI：
--
发表时间：
2013
期刊：
Chinese journal of acoustics
影响因子：
--
作者：
陈雪勤;赵鹤鸣
通讯作者：
赵鹤鸣

基于EMD拟合特征的耳语音端点检测

DOI：
--
发表时间：
--
期刊：
电子信息学报
影响因子：
--
作者：
徐敏;陈雪勤;潘欣裕;赵鹤鸣
通讯作者：
赵鹤鸣

其他文献

DOI：
{{ item.doi || "--" }}
发表时间：
{{ item.publish_year || "--"}}
期刊：
{{ item.journal_name }}
影响因子：
{{ item.factor || "--" }}
作者：
{{ item.authors }}
通讯作者：
{{ item.author }}

内容获取失败，请点击重试

重试

联系客服

开始分析

查看分析示例

此项目为已结题，我已根据课题信息分析并撰写以下内容，帮您拓宽课题思路：

会员权益说明：

汉语耳语音感知中关键技术研究

基本信息

项目摘要

结项摘要

项目成果

其他文献

其他文献

AI项目摘要

AI项目思路

AI技术路线图

相似国自然基金

相似海外基金

AI项目解读示例

AI项目摘要：

AI项目思路：

AI技术路线图