Research on retriving speech and acoustic dark data

语音和声学暗数据检索研究

基本信息

  • 批准号:
    22H03639
  • 负责人:
  • 金额:
    $ 10.98万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
  • 财政年份:
    2022
  • 资助国家:
    日本
  • 起止时间:
    2022-04-01 至 2026-03-31
  • 项目状态:
    未结题

项目摘要

本研究課題は,音声音響ダークデータから,超大規模かつ広範利用できる音声音響コーパスを構築する方法論を扱う.その実現にあたり,(1) 音声音響ダークデータを自動取得するWeb工学技術の開発,(2)ダークデータからその利用可能性を定量化する機械学習技術の開発,(3)大規模データに対する効率的なラベリング法,(4)種々の音声音響認識合成における評価を実施する.本年度は,(a) 音声ダークデータからの音声合成コーパスの構築,(b) 半ダークデータからのお環境音合成法に取り組んだ.(a) については,Webから自動取得した音データの内,音声合成に資するデータの自動取得を試みた.話者ラベルの自動取得,音声ーテキストの対応度合いの自動化,学習データとしての質の自動化を試見た結果,2000人以上の話者の音声合成をかのうにすることを明らかにした.(b) については,環境音を合成するためのテキスト表現法およびモデル学習法について検討した.結果として,査読付き国際会議3本,国内会議4本,招待講演1本の実績を得た.本年度の実績により,音声音響ダークデータからコーパスを構築するための方法論およびモデル学習基盤を構築できたと言える.これにより,音声音響コーパスおよびモデルを広く社会に提供する準備がある程度整った.本年度に実施していないタスクでの検証は必要だが,これを踏まえ来年度はコーパスおよびモデルを社会インフラとして公開していく予定である.
该研究主题介绍了一种构建语音声学语料库的方法,该方法可以大规模使用,并广泛地来自音频声音黑数据。为了实现这一目标,我们将进行(1)自动获取黑暗音频数据的Web工程技术的开发,(2)机器学习技术的开发,该技术可以从黑暗数据中量化其可用性,(3)用于大规模数据的有效标记方法,以及(4)各种音频识别的评估。今年,我们致力于(a)从黑暗音频数据中构建语音综合语料库,以及(b)半黑暗数据的环境声音合成方法。关于(a),我们尝试自动获取有助于从Web自动获得的声音数据的语音综合的数据。在尝试自动获取扬声器标签后,自动化语音到文本兼容性的程度,并自动化学习数据的质量,揭示了2,000多名说话者的语音综合。关于(b),我们检查了综合环境声音的文本表示方法和模型学习方法。结果,我们从三次经过同行评审的国际会议,四次国内会议和一项邀请的演讲中获得了结果。今年的成就能够从黑暗音频数据创建一个方法和模型学习基础。这使得为​​社会提供了声音声学语料库和模型的准备。有必要验证今年未实施的任务,但是考虑到这一点,我们计划明年将语料库和模型公开为社会基础设施。

项目成果

期刊论文数量(8)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
How Should We Evaluate Synthesized Environmental Sounds
Onoma-to-wave: Environmental sound synthesis from onomatopoeic words
  • DOI:
    10.1561/116.00000049
  • 发表时间:
    2021-02
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Yuki Okamoto;Keisuke Imoto;Shinnosuke Takamichi;Ryosuke Yamanishi;Takahiro Fukumori;Y. Yamashita
  • 通讯作者:
    Yuki Okamoto;Keisuke Imoto;Shinnosuke Takamichi;Ryosuke Yamanishi;Takahiro Fukumori;Y. Yamashita
計算機による環境音の理解・解釈に向けた統合的コンペティションDCASE Challengeへの招待
邀请参加 DCASE 挑战赛,这是一项使用计算机理解和解释环境声音的综合竞赛
  • DOI:
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Ryo Yanagisawa;Susumu Saito;Teppei Nakano;Tetsunori Kobayashi;Tetsuji Ogawa;鳴海拓志;井本 桂右
  • 通讯作者:
    井本 桂右
Text-to-speech synthesis from dark data with evaluation-in-the-loop data selection
  • DOI:
    10.48550/arxiv.2210.14850
  • 发表时间:
    2022-10
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Kentaro Seki;Shinnosuke Takamichi;Takaaki Saeki;H. Saruwatari
  • 通讯作者:
    Kentaro Seki;Shinnosuke Takamichi;Takaaki Saeki;H. Saruwatari
Visual Onoma-to-Wave: Environmental Sound Synthesis from Visual Onomatopoeias and Sound-Source Images
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

高道 慎之介其他文献

低電圧駆動単一磁束量子回路における論理ゲートのタイミングパラメータの解析
低压驱动单通量量子电路逻辑门时序参数分析
  • DOI:
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    0
  • 作者:
    齋藤 佑樹;高道 慎之介;猿渡 洋;国吉真波
  • 通讯作者:
    国吉真波
変調スペクトルを考慮したHMM音声合成
考虑调制频谱的HMM语音合成
  • DOI:
  • 发表时间:
    2013
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Tomoyoshi Nakayama;Shigeto Seno;Yoichi Takenaka;Hideo Matsuda;清水 邦義 ら;高道 慎之介
  • 通讯作者:
    高道 慎之介
Moment-matching networkに基づく一期一会音声合成における発話間ゆらぎの評価
基于矩匹配网络的千载难逢的语音合成中话语间波动评估
  • DOI:
  • 发表时间:
    2017
  • 期刊:
  • 影响因子:
    0
  • 作者:
    高道 慎之介;郡山 知樹;齋藤 佑樹;猿渡 洋
  • 通讯作者:
    猿渡 洋
Transformerを用いたオノマトペからの環境音合成
使用 Transformer 从拟声词合成环境声音
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    岡本 悠希;井本 桂右;高道 慎之介;山西 良典;福森 隆寛;山下 洋一
  • 通讯作者:
    山下 洋一
Anytime Guarantees Under Heavy-Tailed Data
重尾数据下的随时保证

高道 慎之介的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('高道 慎之介', 18)}}的其他基金

音声音響ダークデータ採掘技術の研究
音频声学暗数据挖掘技术研究
  • 批准号:
    23K24895
  • 财政年份:
    2024
  • 资助金额:
    $ 10.98万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Singing voice synthesis that can form ensemble with humans and computers
人机合奏的歌声合成
  • 批准号:
    23K18474
  • 财政年份:
    2023
  • 资助金额:
    $ 10.98万
  • 项目类别:
    Grant-in-Aid for Challenging Research (Exploratory)
同時通訳のための音声合成に関する研究
同声传译语音合成研究
  • 批准号:
    14J10354
  • 财政年份:
    2014
  • 资助金额:
    $ 10.98万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows

相似海外基金

Challenge to build non-contact ear acoustics authentication trusted from cyber society
建立受网络社会信赖的非接触式耳声学认证的挑战
  • 批准号:
    19K22851
  • 财政年份:
    2019
  • 资助金额:
    $ 10.98万
  • 项目类别:
    Grant-in-Aid for Challenging Research (Exploratory)
Self-Organized Learning of Speech Recognition and Synthesis Systems
语音识别和合成系统的自组织学习
  • 批准号:
    26280055
  • 财政年份:
    2014
  • 资助金额:
    $ 10.98万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
統計的音声認識・合成のための次世代音響モデリング
用于统计语音识别和合成的下一代声学建模
  • 批准号:
    18800019
  • 财政年份:
    2006
  • 资助金额:
    $ 10.98万
  • 项目类别:
    Grant-in-Aid for Young Scientists (Start-up)
音声対話における音声の認識と合成に関する研究
口语对话中的语音识别与合成研究
  • 批准号:
    05241104
  • 财政年份:
    1995
  • 资助金额:
    $ 10.98万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了