Development of end-to-end speech recognition techniques for super-elderly that can deal with the cause of recognition errors
开发针对高龄老人的端到端语音识别技术,可处理识别错误的原因
基本信息
- 批准号:22K12084
- 负责人:
- 金额:$ 2.66万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Scientific Research (C)
- 财政年份:2022
- 资助国家:日本
- 起止时间:2022-04-01 至 2025-03-31
- 项目状态:未结题
- 来源:
- 关键词:
项目摘要
音声認識技術が広く一般に普及してきたが,見守りロボットの対象となっている超高齢者に対しては認識精度が非常に悪く,精度改善が課題となっている。最近の高精度音声認識技術は,入力特徴に対してニューラルネットワーク(NN) で直接認識結果文字列を生成する「End-to-End(E2E)音声認識」方式が主流となってきているが,E2E音声認識で用いられるNNは非常に巨大で,大量の学習用音声データが必要となる。しかし,大量の超高齢者音声を収集することは非常に困難であり,従来法のように少量データから推定した超高齢者音声の特徴を直接モデルに反映できる手法が望まれるが,E2E音声認識手法はそのような変更が容易でない。そこで,E2E音声認識におけるNNの入力層付近(特徴抽出)と出力層付近(出力ラベル)を分けることで,従来の音声認識研究の知見を包含したE2E音声認識技術を開発することが本研究の目的である。2022年度の研究では,研究代表者である山本がNNの入力層付近での誤り説明可能化に関する研究を,研究分担者である西崎が出力層付近での誤り説明可能化に関する研究を行った。山本は超高齢者の少量の学習データにより安定的に話者適応化することで,超高齢者音声認識性能を向上させる研究を行った。これまでは入力層であるガンマトーンフィルタバンクのパラメータだけで話者適応化を行っていたが,入力層だけでなく,周辺のパラメータを同時に話者適応化することで,学習データが少量の場合でも安定的に話者適応化が行えるようになった。西崎は,日本語wav2vec 2.0をベースに音素(単位)モデルを訓練する際に,異なる音素同士をより識別するための距離学習を導入する方法を開発した。複数言語音声でモデルを検証したところ,高い音素識別性能を持つモデルが訓練できることが分かった。
尽管语音识别技术已广泛应用于大众,但对于作为监控机器人目标的高龄老人来说,识别准确度极差,提高准确度是一个问题。近年来,高精度语音识别技术的主流是“端到端(E2E)语音识别”方法,其中神经网络(NN)根据输入特征直接生成识别结果字符串。端到端语音识别规模极大,需要大量的训练语音数据。然而,收集大量高龄老人的声音是极其困难的,需要一种能够像传统方法一样在模型中直接反映高龄老人声音特征的方法,而这种方法可以像传统方法一样直接反映高龄老人的声音特征,但端到端语音识别方法并不容易做出这样的改变。因此,本研究的目的是通过分离端到端语音识别中的神经网络的输入层(特征提取)和输出层(输出标签)来开发一种融合常规语音识别研究知识的端到端语音识别技术。一个目的。在2022年的研究中,首席研究员山本进行了关于能够解释神经网络输入层附近的误差的研究,而共同研究员西崎则进行了关于能够解释输出层附近的误差的研究。山本进行了一项研究,通过使用来自老年人的少量学习数据来稳定地调整扬声器,从而提高老年人的语音识别性能。到目前为止,仅使用作为输入层的伽玛色调滤波器组的参数来执行说话人自适应,但是通过不仅在输入层上而且还对周围参数同时执行说话人自适应,可以执行说话人自适应仅使用伽玛色调滤波器组(即输入层)的参数,可以稳定地适应扬声器。 Nishizaki 开发了一种引入远程学习的方法,以便在训练基于日语 wav2vec 2.0 的音素(单位)模型时更好地区分不同的音素。当使用多种语言的语音对模型进行测试时,发现可以训练出具有高音素识别性能的模型。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
山本 一公其他文献
超高齢者コーパスとS-JNAS を用いた高齢者音声の音響的特徴の分析
使用高龄语料库和 S-JNAS 分析老年人语音的声学特征
- DOI:
- 发表时间:
2022 - 期刊:
- 影响因子:0
- 作者:
福田 芽衣子;杉山 雅和;西村 良太;入部 百合絵;山本 一公;北岡 教英 - 通讯作者:
北岡 教英
超高齢者コーパスとS-JNAS を用いた高齢者音声の音響的特徴の分析
使用高龄语料库和 S-JNAS 分析老年人语音的声学特征
- DOI:
- 发表时间:
2022 - 期刊:
- 影响因子:0
- 作者:
福田 芽衣子;杉山 雅和;西村 良太;入部 百合絵;山本 一公;北岡 教英 - 通讯作者:
北岡 教英
超高齢者コーパスとS-JNASを用いた高齢者音声の音響的特徴の分析
使用高龄老人语料库和 S-JNAS 分析老年人语音的声学特征
- DOI:
- 发表时间:
2022 - 期刊:
- 影响因子:0
- 作者:
福田 芽衣子;杉山 雅和;西村 良太;入部 百合絵;山本 一公;北岡 教英 - 通讯作者:
北岡 教英
超高齢者コーパスとS-JNASを用いた高齢者音声の音響的特徴の分析
使用高龄老人语料库和 S-JNAS 分析老年人语音的声学特征
- DOI:
- 发表时间:
2022 - 期刊:
- 影响因子:0
- 作者:
福田 芽衣子;杉山 雅和;西村 良太;入部 百合絵;山本 一公;北岡 教英 - 通讯作者:
北岡 教英
山本 一公的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('山本 一公', 18)}}的其他基金
話し言葉音声認識のための発話速度変動に頑健な音響モデルの開発
开发对语速波动具有鲁棒性的声学模型,用于口语语音识别
- 批准号:
16700171 - 财政年份:2004
- 资助金额:
$ 2.66万 - 项目类别:
Grant-in-Aid for Young Scientists (B)
音声認識のための動的特徴を効果的に用いる隠れマルコフモデルに関する研究
有效利用动态特征进行语音识别的隐马尔可夫模型研究
- 批准号:
13780274 - 财政年份:2001
- 资助金额:
$ 2.66万 - 项目类别:
Grant-in-Aid for Young Scientists (B)
相似海外基金
実用性の高いEnd-to-End音声認識に向けた研究
高实用性端到端语音识别研究
- 批准号:
22KJ2898 - 财政年份:2023
- 资助金额:
$ 2.66万 - 项目类别:
Grant-in-Aid for JSPS Fellows
End-to-End Model for Task-Independent Speech Understanding and Dialogue
与任务无关的语音理解和对话的端到端模型
- 批准号:
20H00602 - 财政年份:2020
- 资助金额:
$ 2.66万 - 项目类别:
Grant-in-Aid for Scientific Research (A)
End-to-End音声合成とEnd-to-End音声認識の統合システム
端到端语音合成和端到端语音识别集成系统
- 批准号:
19J21031 - 财政年份:2019
- 资助金额:
$ 2.66万 - 项目类别:
Grant-in-Aid for JSPS Fellows
Automatic acquisition of optimized acoustic model unit for automatic speech recognition using deep learning
使用深度学习自动获取用于自动语音识别的优化声学模型单元
- 批准号:
19K12027 - 财政年份:2019
- 资助金额:
$ 2.66万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
A Spoken Language Knowledge Expansion Framework for Real-World Speech Recognition Using Deep Learning Technology and Human Collaboration
利用深度学习技术和人类协作进行现实世界语音识别的口语知识扩展框架
- 批准号:
18K11431 - 财政年份:2018
- 资助金额:
$ 2.66万 - 项目类别:
Grant-in-Aid for Scientific Research (C)