基于声学空间非线性流形结构的低资源语音识别

结题报告
项目介绍
AI项目解读

基本信息

项目摘要

The performance of modern speech recognition systems depends heavily on the availability of sufficient training data. However, collecting and transcribing a large amount of speech data is difficult and expensive for many languages. This project aims at developping high performance acoustic models for low resource languages, which is a worldwide hot topic and the key technology for real world large-scale application. Starting from the nonlinear manifold structure of the speech signal, a compact and robust acoustic model can be obtained, with low requirement of transcribed training data. Combining feature level and model level out-of-demain data borrowing strategies, the performance can be further improved. The main research contents are as follows. (1) Using multiple low dimensional linear models to approximate the nonlinear manifold of the high dimensional feature space, a probabilistic generative model can be obtained for the acoustic feature vectors. Robust parameter estimation algorithm will be derived using nonparametric and parametric Bayesian methods. (2) Based on compressive sensing principle on that manifold, a compact acoustic model can be established. Using discriminative trianing and regularization method, the model parameters can be estimated robustly in the case of insufficient training data. (3) Research on multilinugal nerual network based features and compare their nonlinear manifold acoustic models through experiments. (4) Research on multilingual nonlinear manifold acoustic model and its semi-supervised training method. Through the above research, the performance of speech recognition system under low resource condition will be improved substantially. This study is of great theoretical significance and application value.
现阶段建立一个高性能语音识别系统严重依赖于大量的标注训练语料,当语料不足时,系统性能急剧下降。然而实际应用中,对于某些语言,其标注语料的获取是非常困难的。本项目针对这一问题,研究低资源条件下连续语音识别系统的声学建模技术。这既是目前国际上的研究热点,也是语音识别大规模实用化的关键技术之一。本项目从语音信号的流形结构特点出发,构建高稳健的声学模型;从特征层和模型层研究其集外数据利用策略,提高系统识别性能。研究内容如下:(1) 利用多个低维线性模型对高维空间非线性流形进行逼近,研究声学特征的非线性流形建模;(2)基于流形上的压缩感知原理,研究非线性流形声学模型及其稳健性参数估计;(3) 研究基于神经网络的多语言特征及其非线性流形声学模型;(4) 研究多语言非线性流形声学模型及其半监督训练算法。通过以上研究成果,大大提高低资源条件下语音识别系统的稳健性和识别率,具有重大的理论意义和应用价值。

结项摘要

本项目针对低资源条件下训练数据量不足,导致语音识别系统性能下降问题,一方面从特征空间流形结构出发,研究紧致的声学建模方法,降低训练数据量需求;另一方面,从特征层和模型层研究集外数据利用策略,提高系统的识别率和稳健性。整个研究按计划进行,按质按量地完成了研究工作,获得多项有价值的成果:(1)利用多个局部线性因子分析模型对特征空间非线性流形结构进行逼近,得到一种基于混合因子分析的声学特征非线性流形撒模型,该模型可较好的对声学特征的先验分布进行建模;(2)基于此模型,利用流形上的压缩感知原理,建立声学模型,推导了各参数的最大似然估计公式及最大后验区分性训练算法,大大减少了模型参数数量,提高了参数估计稳健性。(3)在特征层面,提出了两种适合于低资源条件的多语言深度神经网络特征提取方法,一种是基于改进的共享隐含结构的瓶颈特征提取方法,另一种是基于凸非负矩阵分解的隐含层特征提取方法,相对于低层特征参数,两者性能均有所提升,前者适合于多语言训练条件,后者适合于单语言训练条件。(4)针对方言识别问题,提出采用基于知识蒸馏的迁移学习方法,在高资源声学模型基础上,利用少量方言数据,自适应得到新的声学模型,提高了低资源条件下方言语音识别性能;(5)在训练数据利用方面,提出两种数据扩展策略:一是采用语速扰动扩充训练数据,二是采用初始模型对无标注数据进行识别,将置信度高的识别结果加入训练集重新训练。两者相结合获得最佳识别性能。通过以上研究成果,大大提高了实际应用中低资源条件下,语音识别系统的识别准确率和稳健性。. 采用本项目研究成果,构建了格鲁吉亚语和阿拉伯语方言语音识别系统,前者参加了OpenKWS2016国际关键词检测出语音识别评测,在40小时标注数据条件下,平均词错误率为40.7%,排名第四;后者参加了MGB2017国际阿位伯语方言语音识别评测,在4.8小时自适应标注数据下,平均词错误率为40.96%,排名第二。. 在本项目研究过程中,发表或录用期刊26篇(SCI检索2篇)、会议论文4篇,申请国家发明专利2项,培养博士研究生4名,硕士研究生6名,各项指标超过项目计划要求。

项目成果

期刊论文数量(26)
专著数量(0)
科研奖励数量(0)
会议论文数量(4)
专利数量(2)
基于DNN的低资源语音识别特征提取技术
  • DOI:
    10.16383/j.aas.2017.c150654
  • 发表时间:
    2017
  • 期刊:
    自动化学报
  • 影响因子:
    --
  • 作者:
    秦楚雄;张连海
  • 通讯作者:
    张连海
子空间域相关特征变换与融合的语音识别方法
  • DOI:
    --
  • 发表时间:
    2016
  • 期刊:
    西安交通大学学报
  • 影响因子:
    --
  • 作者:
    陈斌;胡平舸;屈丹
  • 通讯作者:
    屈丹
基于卷积神经网络的维吾尔语语音识别
  • DOI:
    10.3969/j.issn.1671-0673.2017.01.009
  • 发表时间:
    2017
  • 期刊:
    信息工程大学学报
  • 影响因子:
    --
  • 作者:
    梁玉龙;屈丹;李真;张文林
  • 通讯作者:
    张文林
基于群稀疏约束的语音识别特征混合判别分析
  • DOI:
    --
  • 发表时间:
    2015
  • 期刊:
    四川大学学报(工程科学版)
  • 影响因子:
    --
  • 作者:
    陈琦;张连海;屈丹;李弼程
  • 通讯作者:
    李弼程
不相关匹配追踪的分段区分性特征变换方法
  • DOI:
    --
  • 发表时间:
    2016
  • 期刊:
    电子学报
  • 影响因子:
    --
  • 作者:
    陈斌;牛铜;张连海;屈丹;李弼程
  • 通讯作者:
    李弼程

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--"}}
  • 发表时间:
    {{ item.publish_year || "--" }}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--"}}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ patent.updateTime }}

其他文献

基于正则化 i-Vector 算法的语种识别
  • DOI:
    --
  • 发表时间:
    2015
  • 期刊:
    信息工程大学学报
  • 影响因子:
    --
  • 作者:
    杨绪魁;屈丹;张文林
  • 通讯作者:
    张文林
一类带裂缝散射问题的边界积分方程方法
  • DOI:
    --
  • 发表时间:
    2020
  • 期刊:
    数学的实践与认识
  • 影响因子:
    --
  • 作者:
    管毅;赵远英;张文林
  • 通讯作者:
    张文林
榆树叶形性状遗传变异与SSR标记关联分析
  • DOI:
    10.13271/j.mpb.015.001822
  • 发表时间:
    2017
  • 期刊:
    分子植物育种
  • 影响因子:
    --
  • 作者:
    史亚朋;左力辉;张文林;王进茂;杨敏生;梁海永
  • 通讯作者:
    梁海永
不同处理方法对榆属植物叶片总DNA提取效果的影响
  • DOI:
    --
  • 发表时间:
    2015
  • 期刊:
    河北林果研究
  • 影响因子:
    --
  • 作者:
    张文林;左力辉;任亚超;刘红梅;杨敏生;王进茂
  • 通讯作者:
    王进茂
正交拉普拉斯语种识别方法
  • DOI:
    --
  • 发表时间:
    2014
  • 期刊:
    自动化学报
  • 影响因子:
    --
  • 作者:
    杨绪魁;屈丹;张文林
  • 通讯作者:
    张文林

其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--" }}
  • 发表时间:
    {{ item.publish_year || "--"}}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--" }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}
empty
内容获取失败,请点击重试
重试联系客服
title开始分析
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:

AI项目思路

AI技术路线图

相似国自然基金

{{ item.name }}
  • 批准号:
    {{ item.ratify_no }}
  • 批准年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}

相似海外基金

{{ item.name }}
{{ item.translate_name }}
  • 批准号:
    {{ item.ratify_no }}
  • 财政年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了

AI项目解读示例

课题项目:调控A型流感病毒诱导IFN-β表达的机制研究

AI项目摘要:

本研究聚焦于TRIM2蛋白在A型流感病毒诱导的IFN-β表达中的调控机制。A型流感病毒是全球性健康问题,其感染可导致严重的呼吸道疾病。IFN-β作为关键的抗病毒因子,其表达水平对抗病毒防御至关重要。然而,TRIM2如何调控IFN-β的表达尚未明确。本研究假设TRIM2通过与病毒RNA或宿主因子相互作用,影响IFN-β的产生。我们将采用分子生物学、细胞生物学和免疫学方法,探索TRIM2与A型流感病毒诱导IFN-β表达的关系。预期结果将揭示TRIM2在抗病毒免疫反应中的作用,为开发新的抗病毒策略提供理论基础。该研究对理解宿主抗病毒机制具有重要科学意义,并可能对临床治疗流感病毒感染提供新的视角。

AI项目思路:

科学问题:TRIM2如何调控A型流感病毒诱导的IFN-β表达?
前期研究:已有研究表明TRIM2参与抗病毒反应,但其具体机制尚不明确。
研究创新点:本研究将深入探讨TRIM2在IFN-β表达中的直接作用机制。
技术路线:包括病毒学、分子生物学、细胞培养和免疫检测技术。
关键技术:TRIM2与病毒RNA的相互作用分析,IFN-β启动子活性检测。
实验模型:使用A型流感病毒感染的细胞模型进行研究。

AI技术路线图

        graph TD
          A[研究起始] --> B[文献回顾与假设提出]
          B --> C[实验设计与方法学准备]
          C --> D[A型流感病毒感染模型建立]
          D --> E[TRIM2与病毒RNA相互作用分析]
          E --> F[TRIM2对IFN-β启动子活性的影响]
          F --> G[IFN-β表达水平测定]
          G --> H[TRIM2功能丧失与获得研究]
          H --> I[数据收集与分析]
          I --> J[结果解释与科学验证]
          J --> K[研究结论与未来方向]
          K --> L[研究结束]
      
关闭
close
客服二维码