Research on retriving speech and acoustic dark data

语音和声学暗数据检索研究

基本信息

批准号：
22H03639
负责人：
高道慎之介
金额：
$ 10.98万
依托单位：
The University of Tokyo
依托单位国家：
日本
项目类别：
Grant-in-Aid for Scientific Research (B)
财政年份：
2022
资助国家：
日本
起止时间：
2022-04-01 至 2026-03-31
项目状态：
未结题

来源：
https://kaken.nii.ac.jp/en/grant/KAKENHI-PROJECT-22H03639/
关键词：
音声認識合成音響認識合成ダークデータコーパス

项目摘要

本研究課題は，音声音響ダークデータから，超大規模かつ広範利用できる音声音響コーパスを構築する方法論を扱う．その実現にあたり，(1) 音声音響ダークデータを自動取得するWeb工学技術の開発，(2)ダークデータからその利用可能性を定量化する機械学習技術の開発，(3)大規模データに対する効率的なラベリング法，(4)種々の音声音響認識合成における評価を実施する．本年度は，(a) 音声ダークデータからの音声合成コーパスの構築，(b) 半ダークデータからのお環境音合成法に取り組んだ．(a) については，Webから自動取得した音データの内，音声合成に資するデータの自動取得を試みた．話者ラベルの自動取得，音声ーテキストの対応度合いの自動化，学習データとしての質の自動化を試見た結果，2000人以上の話者の音声合成をかのうにすることを明らかにした．(b) については，環境音を合成するためのテキスト表現法およびモデル学習法について検討した．結果として，査読付き国際会議3本，国内会議4本，招待講演1本の実績を得た．本年度の実績により，音声音響ダークデータからコーパスを構築するための方法論およびモデル学習基盤を構築できたと言える．これにより，音声音響コーパスおよびモデルを広く社会に提供する準備がある程度整った．本年度に実施していないタスクでの検証は必要だが，これを踏まえ来年度はコーパスおよびモデルを社会インフラとして公開していく予定である．

该研究主题介绍了一种构建语音声学语料库的方法，该方法可以大规模使用，并广泛地来自音频声音黑数据。为了实现这一目标，我们将进行（1）自动获取黑暗音频数据的Web工程技术的开发，（2）机器学习技术的开发，该技术可以从黑暗数据中量化其可用性，（3）用于大规模数据的有效标记方法，以及（4）各种音频识别的评估。今年，我们致力于（a）从黑暗音频数据中构建语音综合语料库，以及（b）半黑暗数据的环境声音合成方法。关于（a），我们尝试自动获取有助于从Web自动获得的声音数据的语音综合的数据。在尝试自动获取扬声器标签后，自动化语音到文本兼容性的程度，并自动化学习数据的质量，揭示了2,000多名说话者的语音综合。关于（b），我们检查了综合环境声音的文本表示方法和模型学习方法。结果，我们从三次经过同行评审的国际会议，四次国内会议和一项邀请的演讲中获得了结果。今年的成就能够从黑暗音频数据创建一个方法和模型学习基础。这使得为社会提供了声音声学语料库和模型的准备。有必要验证今年未实施的任务，但是考虑到这一点，我们计划明年将语料库和模型公开为社会基础设施。

项目成果

期刊论文数量（8）

专著数量（0）

科研奖励数量（0）

会议论文数量（0）

专利数量（0）

How Should We Evaluate Synthesized Environmental Sounds

DOI：
10.23919/apsipaasc55919.2022.9980187
发表时间：
2022-08
期刊：
2022 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC)
影响因子：
0
作者：
Yuki Okamoto;Keisuke Imoto;Shinnosuke Takamichi;Takahiro Fukumori;Y. Yamashita
通讯作者：
Yuki Okamoto;Keisuke Imoto;Shinnosuke Takamichi;Takahiro Fukumori;Y. Yamashita

Onoma-to-wave: Environmental sound synthesis from onomatopoeic words

DOI：
10.1561/116.00000049
发表时间：
2021-02
期刊：
ArXiv
影响因子：
0
作者：
Yuki Okamoto;Keisuke Imoto;Shinnosuke Takamichi;Ryosuke Yamanishi;Takahiro Fukumori;Y. Yamashita
通讯作者：
Yuki Okamoto;Keisuke Imoto;Shinnosuke Takamichi;Ryosuke Yamanishi;Takahiro Fukumori;Y. Yamashita

計算機による環境音の理解・解釈に向けた統合的コンペティションDCASE Challengeへの招待

邀请参加 DCASE 挑战赛，这是一项使用计算机理解和解释环境声音的综合竞赛

DOI：
发表时间：
2023
期刊：
影响因子：
0
作者：
Ryo Yanagisawa;Susumu Saito;Teppei Nakano;Tetsunori Kobayashi;Tetsuji Ogawa;鳴海拓志;井本桂右
通讯作者：
井本桂右

Text-to-speech synthesis from dark data with evaluation-in-the-loop data selection

DOI：
10.48550/arxiv.2210.14850
发表时间：
2022-10
期刊：
ArXiv
影响因子：
0
作者：
Kentaro Seki;Shinnosuke Takamichi;Takaaki Saeki;H. Saruwatari
通讯作者：
Kentaro Seki;Shinnosuke Takamichi;Takaaki Saeki;H. Saruwatari

Visual Onoma-to-Wave: Environmental Sound Synthesis from Visual Onomatopoeias and Sound-Source Images

DOI：
10.1109/icassp49357.2023.10096517
发表时间：
2022-10
期刊：
ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)
影响因子：
0
作者：
Hien Ohnaka;Shinnosuke Takamichi;Keisuke Imoto;Yuki Okamoto;Kazuki Fujii;H. Saruwatari
通讯作者：
Hien Ohnaka;Shinnosuke Takamichi;Keisuke Imoto;Yuki Okamoto;Kazuki Fujii;H. Saruwatari