機械学習を用いた脳性麻痺構音障がい者の音声認識
使用机器学习对脑瘫构音障碍进行语音识别
基本信息
- 批准号:17J04380
- 负责人:
- 金额:$ 1.6万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for JSPS Fellows
- 财政年份:2017
- 资助国家:日本
- 起止时间:2017-04-26 至 2020-03-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
アテトーゼ型脳性麻痺による構音障がい者にとって,発話行為は身体への負担が大きく,大量の発話を行うことは難しい.そのため,学習データとして使えるデータ量は限られてくる.そこで,構音障害を持つ目標話者の限られた発話量から学習可能な音声認識システムの構築が必要となる.本研究では,構音障害を持つ英語話者,及び日本人健常者の音声を用いた転移学習を提案する.構音障害を持つ日本語話者を対象とした音声コーパスは存在せず,我々の研究室で収録したものしかないため,データ量は非常に限られている.しかし,構音障害を持つ外国語話者の音声コーパスは利用可能なものがいくつか公開されている.また,日本人健常者の音声コーパスも多く公開されている.提案手法ではこれらのデータベースを用いてモデルパラメータを初期化することで,目標話者の少量データからでも十分な学習を可能にする.しかし,従来の音声認識モデルは複数言語での利用はできなかった.そこで,言語固有の音素推定器を持つモデルを提案し,複数言語での学習を可能にした.提案手法により,構音障害固有の音響的特徴は英語障がい者発話から,日本語生成に必要な言語的特徴は日本語健常者発話から転移させることが期待できる.音素認識実験により,追加のデータベースを用いることで認識性能を大きく向上させることが確認された.この研究成果は1件の英文学術論文誌に採択されている.また,音声だけでなく唇動画像も用いたマルチモーダル音声認識に関する研究も行った.複数モーダルの利用は特徴量の補完という観点から障がい者への応用も期待できる.音声認識モデルにより学習された情報を用いて唇画像モデルを学習する知識蒸留技術に基づき,唇の動きから発話内容を認識するリップリーディングの性能向上を達成し,さらに,それに基づくモデル適応を提案した.この手法は国内学会にて発表済みであり,英文論文誌へ投稿予定である.
对于因手足徐动型脑瘫而患有构音障碍的人来说,言语行为会给身体带来沉重的负担,使其难以发出大量言语。因此,可用作训练数据的数据量是有限的。因此,有必要构建一种语音识别系统,能够从患有构音障碍的目标说话人的有限话语中进行学习。在这项研究中,我们建议使用患有构音障碍的英语使用者和健康的日语使用者的语音进行迁移学习。日语中没有构音障碍的语音语料库,只有我们实验室录制的,因此数据量极其有限。然而,有一些公开的患有构音障碍的外语使用者的语音语料库。此外,还出版了许多健康日本人的语音语料库。所提出的方法使用这些数据库来初始化模型参数,使得即使目标说话人的少量数据也能进行足够的学习。然而,传统的语音识别模型不能用于多种语言。因此,我们提出了一种具有特定于语言的音素估计器的模型,可以实现多种语言的学习。通过所提出的方法,预计构音障碍特有的声学特征将从残疾人的英语语音中转移,而日语发音所需的语言特征将从正常日本人的语音中转移。音素识别实验证实,通过使用额外的数据库可以大大提高识别性能。该研究成果已被一份英文学术期刊接受。我们还不仅使用语音还使用唇部视频图像进行多模态语音识别研究。从补充功能的角度来看,多种模式的使用也有望应用于残疾人。基于利用语音识别模型学习到的信息来学习唇部图像模型的知识蒸馏技术,我们提高了唇部阅读的性能,该技术通过嘴唇运动识别语音内容,并在此基础上提出了模型自适应。该方法已在国内学术会议上提出,并计划投稿至英文期刊。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Lip readingのためのクロスモーダルTeacher-Student学習
跨模式师生唇读学习
- DOI:
- 发表时间:2019
- 期刊:
- 影响因子:0
- 作者:高島 悠樹;相原 龍;高島 遼一;滝口 哲也;有木 康雄;村山 修
- 通讯作者:村山 修
Parallel-Data-Free Dictionary Learning for Voice Conversion Using Non-Negative Tucker Decomposition
- DOI:10.1109/icassp.2018.8462569
- 发表时间:2018-04
- 期刊:
- 影响因子:0
- 作者:Yuki Takashima;H. Yano;Toru Nakashika;T. Takiguchi;Y. Ariki
- 通讯作者:Yuki Takashima;H. Yano;Toru Nakashika;T. Takiguchi;Y. Ariki
End-to-end構音障害者音声認識のための複数データベースを用いたデータ拡張
使用多个数据库进行数据扩展以进行端到端构音障碍语音识别
- DOI:
- 发表时间:2018
- 期刊:
- 影响因子:0
- 作者:高島 悠樹;滝口 哲也;有木 康雄
- 通讯作者:有木 康雄
非負値タッカー分解による NMF 辞書学習に基づく非パラレル声質変換
基于非负Tucker分解的NMF字典学习的非并行语音质量转换
- DOI:
- 发表时间:2018
- 期刊:
- 影响因子:0
- 作者:高島悠樹;矢野肇;中鹿亘;滝口哲也;有木康雄
- 通讯作者:有木康雄
非負値行列因子分解に基づく構音障害者音声の高域付加の検討
基于非负矩阵分解的构音障碍语音高频相加研究
- DOI:
- 发表时间:2018
- 期刊:
- 影响因子:0
- 作者:岡澤大志;石川誠彬;江木啓訓;高島 悠樹,滝口 哲也,有木 康雄
- 通讯作者:高島 悠樹,滝口 哲也,有木 康雄
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
高島 悠樹其他文献
Restricted Boltzmann Machine を用いた話者性・雑音を考慮したモデリングの検討
使用受限玻尔兹曼机考虑扬声器特性和噪声的建模研究
- DOI:
- 发表时间:
2016 - 期刊:
- 影响因子:0
- 作者:
高島 悠樹;中鹿 亘;滝口 哲也;有木 康雄 - 通讯作者:
有木 康雄
「満洲国」林業遺産の継承と断絶
“满洲国”林业遗产的继承与终止
- DOI:
- 发表时间:
2020 - 期刊:
- 影响因子:0
- 作者:
高島 悠樹;相原 龍;高島 遼一;滝口 哲也;有木 康雄;村山 修;久保田善彦;Hiroo Nasu;伊藤亜聖(分担執筆:アジア太平洋研究書編集);永井リサ - 通讯作者:
永井リサ
構音障害者音声認識のための確率表現に基づく音素ラベリングの検討
基于概率表示的音素标注用于构音障碍语音识别的研究
- DOI:
- 发表时间:
2015 - 期刊:
- 影响因子:0
- 作者:
高島 悠樹;中鹿 亘;滝口 哲也;有木 康雄 - 通讯作者:
有木 康雄
主体的・対話的で深い学びをデザインする
设计主动、交互式和深度学习
- DOI:
- 发表时间:
2018 - 期刊:
- 影响因子:0
- 作者:
高島 悠樹;相原 龍;高島 遼一;滝口 哲也;有木 康雄;村山 修;久保田善彦 - 通讯作者:
久保田善彦
高島 悠樹的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
相似海外基金
Speech recognition technology for language documentation: a case study on Sakhalin Ainu
语言文献的语音识别技术:以萨哈林岛阿伊努语为例
- 批准号:
22K17952 - 财政年份:2022
- 资助金额:
$ 1.6万 - 项目类别:
Grant-in-Aid for Early-Career Scientists
Towards cultivation of multilingual competence involving English: A longitudinal investigation of Conversation-for Learning
培养涉及英语的多语言能力:对话学习的纵向调查
- 批准号:
21K13051 - 财政年份:2021
- 资助金额:
$ 1.6万 - 项目类别:
Grant-in-Aid for Early-Career Scientists
エリア防災における外国人の避難行動分析からみた都市のマルチリンガル化
从区域防灾中外国人疏散行为分析城市的多语言化
- 批准号:
20K04877 - 财政年份:2020
- 资助金额:
$ 1.6万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Qualitative Analysis of Foreign Language Learning from Multilingual (Multilingual Speaker) Proficient Experience
多语种(多语种说话者)熟练经验对外语学习的定性分析
- 批准号:
19K14053 - 财政年份:2019
- 资助金额:
$ 1.6万 - 项目类别:
Grant-in-Aid for Early-Career Scientists
The Basic Operations of Human Language: Theoretical and Experimental Studies
人类语言的基本操作:理论与实验研究
- 批准号:
17H02347 - 财政年份:2017
- 资助金额:
$ 1.6万 - 项目类别:
Grant-in-Aid for Scientific Research (B)