面向大规模语料的蒙古语语音识别关键问题研究

结题报告
项目介绍
AI项目解读

基本信息

  • 批准号:
    61762070
  • 项目类别:
    地区科学基金项目
  • 资助金额:
    37.0万
  • 负责人:
  • 依托单位:
  • 学科分类:
    F0211.信息检索与社会计算
  • 结题年份:
    2021
  • 批准年份:
    2017
  • 项目状态:
    已结题
  • 起止时间:
    2018-01-01 至2021-12-31

项目摘要

The application of GMM-HMM and N-Gram in Mongolian speech recognition has brought about the problems that the accurate rate is low and the training speed is slow. This project which is based on deep neural networks and hidden Markov model, combined with the changeable location of phoneme and the pronunciation of complex changes in the Mongolian phenomenon carries out the following studies. First, the MLLR-MAP feature extraction method, the model training problem and the unsupervised training of the deep belief network parameters under the large-scale corpus are carried out in the DNN-HMM acoustic model. Second, the study of the Mongolian language model based on the recurrent neural network is carried out to solve the problem of sparse data, low dependence on long distance data and high computational complexity and confusion in the study of the Mongolian language model. Third, we study the pipelined computing to solve the double stochastic gradient algorithm about the batch stochastic selection, transfer parameters through the networks on the basis of distributed computing, aiming at improving the training speed of deep neural networks. Finally we do contrast experiments about the model parameters of deep neural networks to determine the optimal model parameters of networks by building Kaldi toolbox; meanwhile, the experimental confirmation in the Hadoop Yarn platform about the pipelined computing of deep neural networks based on double asynchronous gradient rise and contrastive divergence algorithm is carried out. Thus, we can improve the Mongolian speech recognition accurate rate and the training speed of models and promote the information processing and application levels of minority languages.
针对蒙古语语音识别中应用GMM-HMM和N-Gram模型出现的语音识别正确率低、训练速度慢等问题,课题以深度神经网络和隐马尔科夫数学模型为基础,结合蒙古语音素位置变化多、发音变化复杂的现象,开展MLLR-MAP特征提取方法、模型训练过拟问题和大规模语料下网络参数无监督训练的DNN-HMM声学模型研究;开展基于循环神经网络的蒙古语语言模型的研究,解决数据稀疏、长距离数据依赖低和计算复杂度与困惑度高的问题;针对在大规模深层网络训练慢的问题,以分布式计算为基础,开展批量随机选择、网络参数传递、双随机梯度上升算法的流水线式计算研究。搭建Kaldi、Hadoop Yarn实验平台,通过对比实验确定网络最优参数;在大规模语料下对双异步随机梯度、对比散列等算法进行流水线式计算验证。通过以上问题的研究和解决,有效提高蒙古语语音识别的正确率和模型的训练速度,促进边疆地区少数民族语言信息化处理与应用水平。

结项摘要

蒙古语作为少数民族语言在内蒙古地区被广泛使用,开展蒙古语智能化应用研究有利于促进地区的繁荣发展。面对蒙古语发音地区差异性和构词多样性给深度神经网络语音识别建模带来的参数稀疏、泛化能力差、训练速度慢等挑战,课题组开展了(1)针对地区、性别和年龄发音差异,结合语言的使用领域,研究了蒙古语语料库构建方法与语音数据增广方法。(2)针对蒙古语语音识别模型训练中存在的参数稀疏性与长时间依赖性问题、端到端语音识别模型中异形同音词识别困难问题,以及建模中存在的欠拟合问题,构建了基于DNN-HMM与端到端框架的蒙古语语音识别模型,研究了蒙古语声学模型的结构与建模参数、循环神经网络的蒙古语语言模型结构和迁移训练方法。(3)针对蒙古语语音识别系统泛化能力差的问题,构建了说话人自适应的蒙古语语音识别系统,研究了基于I-Vector、D-Vector与MFCC、FBANK语音特征融合的方法。(4)针对大规模数据模型训练慢的问题,构建了基于流水线式框架与多GPU的模型训练平台,研究了分布式计算设备台数、GPU个数、数据集大小、DNN神经网络深度,以及训练时间之间的关系。. 通过研究,(1)构建了面向蒙古语语音识别任务的语料库IMUT-MC,包括10个地区417位说话人212小时的有标注语料和800小时的无标注语料。(2)定义了异构/同构深度神经网络的概念,提出基于DNN-HMM、BLSTM-CTC的蒙古语声学模型、MLMRNN蒙古语语言模型、基于Transformer的端到端模型结构,以及流水线式预训练算法;确定了蒙古语语音识别模型的最优网络结构、最优网络参数和最优建模参数。(3)提出异构蒙古语声学模型的参数迁移方法和基于CNN-CTC的蒙古语语音识别模型层迁移方法。(4)提出I-Vector资源融合模型、D-Vector特征变换模型和蒙古语说话人在线自适应模型。以上研究成果,既可以推动蒙古语在多语种语音交互、语音转写、机器翻译和智能设备控制等方面的应用,也可以为其他少数民族语言的智能化研究提供借鉴,进一步促进少数民族语言智能化研究水平提升。

项目成果

期刊论文数量(17)
专著数量(0)
科研奖励数量(0)
会议论文数量(5)
专利数量(12)
A Sentimental and Context-Sensitive Model for the Seq2Seq-Based Dialogue Generation
基于 Seq2Seq 的对话生成的情感和上下文敏感模型
  • DOI:
    --
  • 发表时间:
    2020
  • 期刊:
    ELEKTROTEHNIŠKI VESTNIK
  • 影响因子:
    --
  • 作者:
    Zhiqiang Ma;Baoxiang Du;Ji Shen;Chunyu Wang;Rui Yang
  • 通讯作者:
    Rui Yang
A Mongolian Language Model based on Recurrent Neural Networks
基于循环神经网络的蒙古语语言模型
  • DOI:
    10.23940/ijpe.18.07.p22.15801589
  • 发表时间:
    2018-07
  • 期刊:
    International Journal of Performability Engineering
  • 影响因子:
    --
  • 作者:
    Zhiqiang Ma;Li Zhang;Rui Yang;Tuya Li
  • 通讯作者:
    Tuya Li
基于 CNN-CTC 的蒙古语层迁移语音识别模型
  • DOI:
    --
  • 发表时间:
    --
  • 期刊:
    中文信息学报
  • 影响因子:
    --
  • 作者:
    吕浩田;马志强;王洪彬;谢秀兰
  • 通讯作者:
    谢秀兰
A Control Unit for Emotional Conversation Generation
用于生成情感对话的控制单元
  • DOI:
    10.1109/access.2020.2977697
  • 发表时间:
    2020-03
  • 期刊:
    IEEE Access
  • 影响因子:
    3.9
  • 作者:
    Ma Zhiqiang;Yang Rui;Du Baoxiang;Chen Yan
  • 通讯作者:
    Chen Yan
基于端到端的蒙古语异形同音词声学建模方法
  • DOI:
    --
  • 发表时间:
    --
  • 期刊:
    中文信息学报
  • 影响因子:
    --
  • 作者:
    陈 艳;李图雅;马志强;谢秀兰;王洪彬
  • 通讯作者:
    王洪彬

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--"}}
  • 发表时间:
    {{ item.publish_year || "--" }}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--"}}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ patent.updateTime }}

其他文献

甲烷直接氧化制甲醇(Ⅲ) 反应气吹扫催化膜反应器(RSCMR)
  • DOI:
    --
  • 发表时间:
    --
  • 期刊:
    燃料化学学报
  • 影响因子:
    --
  • 作者:
    卢冠忠;沈守仓;马志强
  • 通讯作者:
    马志强
模块化动态博弈的网络可生存性态势跟踪评估
  • DOI:
    --
  • 发表时间:
    2012
  • 期刊:
    西安交通大学学报
  • 影响因子:
    --
  • 作者:
    伍 文;孟相如;马志强;陈铎龙;WU Wen;MENG Xiangru;MA Zhiqiang;CHEN Duolong
  • 通讯作者:
    CHEN Duolong
气相色谱-质谱联用法在线观测大气中的三氟化氮
  • DOI:
    --
  • 发表时间:
    2018
  • 期刊:
    环境化学
  • 影响因子:
    --
  • 作者:
    梁苗;姚波;陈丽曲;权维俊;马志强;周怀刚
  • 通讯作者:
    周怀刚
网构软件信任机制的形式化研究
  • DOI:
    --
  • 发表时间:
    --
  • 期刊:
    哈尔滨工程大学学报
  • 影响因子:
    --
  • 作者:
    董宇欣;印桂生;谢新强;马志强;DONG Yuxin,YIN Guisheng,XIE Xinqiang,MA Zhiqiang (
  • 通讯作者:
    DONG Yuxin,YIN Guisheng,XIE Xinqiang,MA Zhiqiang (
基于系统动力学的药品第三方物流库存管理仿真研究
  • DOI:
    --
  • 发表时间:
    2020
  • 期刊:
    物流科技
  • 影响因子:
    --
  • 作者:
    周浩然;李钊;马志强
  • 通讯作者:
    马志强

其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--" }}
  • 发表时间:
    {{ item.publish_year || "--"}}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--" }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}
empty
内容获取失败,请点击重试
重试联系客服
title开始分析
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:

AI项目思路

AI技术路线图

马志强的其他基金

面向蒙古语对话系统的人工情感生成机制研究
  • 批准号:
    62166029
  • 批准年份:
    2021
  • 资助金额:
    37 万元
  • 项目类别:
    地区科学基金项目

相似国自然基金

{{ item.name }}
  • 批准号:
    {{ item.ratify_no }}
  • 批准年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}

相似海外基金

{{ item.name }}
{{ item.translate_name }}
  • 批准号:
    {{ item.ratify_no }}
  • 财政年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了

AI项目解读示例

课题项目:调控A型流感病毒诱导IFN-β表达的机制研究

AI项目摘要:

本研究聚焦于TRIM2蛋白在A型流感病毒诱导的IFN-β表达中的调控机制。A型流感病毒是全球性健康问题,其感染可导致严重的呼吸道疾病。IFN-β作为关键的抗病毒因子,其表达水平对抗病毒防御至关重要。然而,TRIM2如何调控IFN-β的表达尚未明确。本研究假设TRIM2通过与病毒RNA或宿主因子相互作用,影响IFN-β的产生。我们将采用分子生物学、细胞生物学和免疫学方法,探索TRIM2与A型流感病毒诱导IFN-β表达的关系。预期结果将揭示TRIM2在抗病毒免疫反应中的作用,为开发新的抗病毒策略提供理论基础。该研究对理解宿主抗病毒机制具有重要科学意义,并可能对临床治疗流感病毒感染提供新的视角。

AI项目思路:

科学问题:TRIM2如何调控A型流感病毒诱导的IFN-β表达?
前期研究:已有研究表明TRIM2参与抗病毒反应,但其具体机制尚不明确。
研究创新点:本研究将深入探讨TRIM2在IFN-β表达中的直接作用机制。
技术路线:包括病毒学、分子生物学、细胞培养和免疫检测技术。
关键技术:TRIM2与病毒RNA的相互作用分析,IFN-β启动子活性检测。
实验模型:使用A型流感病毒感染的细胞模型进行研究。

AI技术路线图

        graph TD
          A[研究起始] --> B[文献回顾与假设提出]
          B --> C[实验设计与方法学准备]
          C --> D[A型流感病毒感染模型建立]
          D --> E[TRIM2与病毒RNA相互作用分析]
          E --> F[TRIM2对IFN-β启动子活性的影响]
          F --> G[IFN-β表达水平测定]
          G --> H[TRIM2功能丧失与获得研究]
          H --> I[数据收集与分析]
          I --> J[结果解释与科学验证]
          J --> K[研究结论与未来方向]
          K --> L[研究结束]
      
关闭
close
客服二维码