面向小数据语音建模的跨语言迁移学习研究

结题报告
项目介绍
AI项目解读

基本信息

  • 批准号:
    61901473
  • 项目类别:
    青年科学基金项目
  • 资助金额:
    26.0万
  • 负责人:
  • 依托单位:
  • 学科分类:
    F01.电子学与信息系统
  • 结题年份:
    2022
  • 批准年份:
    2019
  • 项目状态:
    已结题
  • 起止时间:
    2020-01-01 至2022-12-31

项目摘要

Deep neural network based acoustic models have obtained significant improvement for speech recognition systems. However, there are many challenges for low resource speech recognition tasks. Cross-lingual acoustic modeling is proposed to solve this problem. However, previous studies have some limitations. First, few of researchers focus on the problem of “when to transfer”. Second, previous methods exist negative transfer. Third, previous work ignores to explore the generalization error lower bound of cross-lingual transfer learning. In order to solve these problems, this project is going to explore the relevance between the performance of acoustic model and cross-lingual transfer learning via linguistics, phonology, language transfer in second language acquisition, deep learning and statistical learning theory. This project will build the mechanism of “when to transfer” for acoustic transfer models. Then the methods of learning language universal representations will be studied. Furthermore, the generalization error lower bound of cross-lingual transfer learning will be explored. Based on the above research, the cross-lingual acoustic modeling will be developed and the low resource speech recognition system will also be built. This project has profound scientific significance for cross-lingual transfer learning. Moreover, this project will help the artificial intelligence technology to be widely applied in products. This project will also play an important role in cultural exchanges, economic development and national security of the Belt and Road, as well as the protection of endangered languages.
尽管语音识别技术已经成熟,但是小语种语音识别系统的识别准确率仍然难以达到实用要求。跨语言建模技术是解决该问题的一种重要思路,然而,现有研究存在缺乏深入探索“何时迁移”的机制、容易产生负迁移、缺乏分析泛化误差下界等问题。针对这些问题,本项目拟以小语种语音数据为研究对象,融合语言学、音韵学、二语习得理论、深度学习和统计学习理论,深入探索语音感知和跨语言迁移学习的关联。重点构建跨语言语音建模“何时迁移”的机制,进一步研究跨语言声学模型的通用语音表征学习方法,深入探索跨语言迁移学习的泛化误差下界。在上述研究的基础上,实现跨语言的语音迁移模型,并构建小语种语音识别系统。本项目面向小数据的研究将对完善跨语言迁移学习的方法和理论具有重要的科学意义,有助于促进人工智能技术被大规模应用,也能为“一带一路”的文化交流、经济发展和国家安全以及保护濒危语言发挥重要作用。

结项摘要

尽管语音识别技术已经成熟,但是小语种语音识别系统的识别准确率仍然难以达到实用要.求。本项目以小语种语音数据为研究对象,融合语言学、音韵学、二语习得理论、统计学习理论和跨语言迁移学习方法,深入探索了语音感知和跨语言迁移学习的关联,开展了三方面研究工作:(1)跨语言语音建模“何时迁移”的机制;(2)跨语言声学模型的通用语音表征学习方法;(3)跨语言迁移学习的泛化误差下界。该项目与美国佐治亚理工大学、法国CNRS、新加坡国立大学等国外顶级科研机构,以及国内同行进行了学术交流,资助了10余次线上参加国际学术会议的交流机会,主要研究成果包括:(1)合度量学习与对抗训练的语音迁移学习方法;(2)基于跨言知识迁移的通用语音表征方法;(3)结合对比学习与上下文感知的多语言语音生成方法。基于上述研究成果,实现了跨语言的语音迁移模型,并构建了小语种语音识别和合成系统。在本项目支持下发表学术论文40篇,其中:国际期刊7 篇(包括本领域内影响因子最高的国际著名期刊 IEEE Transactions on Audio, Speech and Language Processing 论文 6篇),国内核心期刊1篇,国际会议32篇。这些论文被 SCI 收录7篇, EI 收录30篇。完成中国专利申请 37 项(其中 34 项已授权),国际专利申请9项(其中 6 项已授权),软件著作权2项。培养的学生中, 6人获中科院院级三好学生,1人获优秀共产党员,2人获得国家奖学金,4人获国内重要学术会议最佳学术论文或报告奖。1次获国际语音领域比赛第一名,1次获国内语音领域比赛第一名。上述研究成果对完善跨语言迁移学习的方法和理论具有重要的科学意义,有助于促进人工智能技术被大规模应用,为“一带一路”的文化交流、经济发展和国家安全以及保护濒危语言发挥重要作用。

项目成果

期刊论文数量(8)
专著数量(0)
科研奖励数量(3)
会议论文数量(32)
专利数量(46)
Integrating Knowledge Into End-to-End Speech Recognition From External Text-Only Data
将来自外部纯文本数据的知识集成到端到端语音识别中
  • DOI:
    10.1109/taslp.2021.3066274
  • 发表时间:
    2021
  • 期刊:
    IEEE/ACM Transactions on Audio, Speech, and Language Processing
  • 影响因子:
    --
  • 作者:
    Ye Bai;Jiangyan Yi;Jianhua Tao;Zhengqi Wen;Zhengkun Tian;Shuai Zhang
  • 通讯作者:
    Shuai Zhang
NeuralDPS: Neural Deterministic Plus Stochastic Model With Multiband Excitation for Noise-Controllable Waveform Generation
NeuralDPS:具有多频带激励的神经确定性加随机模型,用于生成噪声可控波形
  • DOI:
    10.1109/taslp.2022.3140480
  • 发表时间:
    2022
  • 期刊:
    IEEE/ACM Transactions on Audio, Speech, and Language Processing
  • 影响因子:
    --
  • 作者:
    Tao Wang;Ruibo Fu;Jiangyan Yi;Jianhua Tao;Zhengqi Wen
  • 通讯作者:
    Zhengqi Wen
Gated Recurrent Fusion With Joint Training Framework for Robust End-to-End Speech Recognition
门控循环融合与鲁棒端到端语音识别联合训练框架
  • DOI:
    10.1109/taslp.2020.3039600
  • 发表时间:
    2021
  • 期刊:
    IEEE/ACM Transactions on Audio, Speech, and Language Processing
  • 影响因子:
    --
  • 作者:
    Cunhang Fan;Jiangyan Yi;Jianhua Tao;Zhengkun Tian;Bin Liu;Zhengqi Wen
  • 通讯作者:
    Zhengqi Wen
Fast End-to-End Speech Recognition Via Non-Autoregressive Models and Cross-Modal Knowledge Transferring From BERT
通过非自回归模型和 BERT 的跨模态知识传输进行快速端到端语音识别
  • DOI:
    10.1109/taslp.2021.3082299
  • 发表时间:
    2021
  • 期刊:
    IEEE/ACM Transactions on Audio, Speech, and Language Processing
  • 影响因子:
    --
  • 作者:
    Ye Bai;Jiangyan Yi;Jianhua Tao;Zhengkun Tian;Zhengqi Wen;Shuai Zhang
  • 通讯作者:
    Shuai Zhang
基于全局-时频注意力网络的语音伪造检测
  • DOI:
    10.1002/bdm.2245
  • 发表时间:
    2021
  • 期刊:
    计算机研究与发展
  • 影响因子:
    --
  • 作者:
    王成龙;易江燕;陶建华;马浩鑫;田正坤;傅睿博
  • 通讯作者:
    傅睿博

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--"}}
  • 发表时间:
    {{ item.publish_year || "--" }}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--"}}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ patent.updateTime }}

其他文献

一种基于卷积神经网络的端到端语音分离方法
  • DOI:
    --
  • 发表时间:
    2019
  • 期刊:
    信号处理
  • 影响因子:
    --
  • 作者:
    范存航;刘斌;陶建华;温正棋;易江燕
  • 通讯作者:
    易江燕
语音伪造与鉴伪的发展与挑战
  • DOI:
    --
  • 发表时间:
    2020
  • 期刊:
    信息安全学报
  • 影响因子:
    --
  • 作者:
    陶建华;傅睿博;易江燕;王成龙;汪涛
  • 通讯作者:
    汪涛
基于全局-时频注意力网络的语音伪造检测
  • DOI:
    --
  • 发表时间:
    2021
  • 期刊:
    计算机研究与发展
  • 影响因子:
    --
  • 作者:
    王成龙;易江燕;陶建华;马浩鑫;田正坤;傅睿博
  • 通讯作者:
    傅睿博

其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--" }}
  • 发表时间:
    {{ item.publish_year || "--"}}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--" }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}
empty
内容获取失败,请点击重试
重试联系客服
title开始分析
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:

AI项目思路

AI技术路线图

相似国自然基金

{{ item.name }}
  • 批准号:
    {{ item.ratify_no }}
  • 批准年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}

相似海外基金

{{ item.name }}
{{ item.translate_name }}
  • 批准号:
    {{ item.ratify_no }}
  • 财政年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了

AI项目解读示例

课题项目:调控A型流感病毒诱导IFN-β表达的机制研究

AI项目摘要:

本研究聚焦于TRIM2蛋白在A型流感病毒诱导的IFN-β表达中的调控机制。A型流感病毒是全球性健康问题,其感染可导致严重的呼吸道疾病。IFN-β作为关键的抗病毒因子,其表达水平对抗病毒防御至关重要。然而,TRIM2如何调控IFN-β的表达尚未明确。本研究假设TRIM2通过与病毒RNA或宿主因子相互作用,影响IFN-β的产生。我们将采用分子生物学、细胞生物学和免疫学方法,探索TRIM2与A型流感病毒诱导IFN-β表达的关系。预期结果将揭示TRIM2在抗病毒免疫反应中的作用,为开发新的抗病毒策略提供理论基础。该研究对理解宿主抗病毒机制具有重要科学意义,并可能对临床治疗流感病毒感染提供新的视角。

AI项目思路:

科学问题:TRIM2如何调控A型流感病毒诱导的IFN-β表达?
前期研究:已有研究表明TRIM2参与抗病毒反应,但其具体机制尚不明确。
研究创新点:本研究将深入探讨TRIM2在IFN-β表达中的直接作用机制。
技术路线:包括病毒学、分子生物学、细胞培养和免疫检测技术。
关键技术:TRIM2与病毒RNA的相互作用分析,IFN-β启动子活性检测。
实验模型:使用A型流感病毒感染的细胞模型进行研究。

AI技术路线图

        graph TD
          A[研究起始] --> B[文献回顾与假设提出]
          B --> C[实验设计与方法学准备]
          C --> D[A型流感病毒感染模型建立]
          D --> E[TRIM2与病毒RNA相互作用分析]
          E --> F[TRIM2对IFN-β启动子活性的影响]
          F --> G[IFN-β表达水平测定]
          G --> H[TRIM2功能丧失与获得研究]
          H --> I[数据收集与分析]
          I --> J[结果解释与科学验证]
          J --> K[研究结论与未来方向]
          K --> L[研究结束]
      
关闭
close
客服二维码