発話動作を起点とした音声生成による代用発声技術の実現

根据语音动作生成语音实现替代语音技术

基本信息

  • 批准号:
    21K11965
  • 负责人:
  • 金额:
    $ 2.66万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
  • 财政年份:
    2021
  • 资助国家:
    日本
  • 起止时间:
    2021-04-01 至 2024-03-31
  • 项目状态:
    已结题

项目摘要

情報技術による音声コミュニケーションの拡張のため、その基盤となる調音・音声データベースの拡充と、口唇動画からの音声合成システムの高度化に関する研究をおこなった。調音・音声データベースに関しては、発話時の声道全体の運動を観測し得るリアルタイムMRI(磁気共鳴画像)により、成人女性1名について音素バランス文(ATR503文)の観測実験を実施した。同観測手法により、これまで成人2名のデータ収集を完了しており、今回の測定実験によって当初目標とした3名分のデータ収集が完了する。従って、研究の進捗は当初の予定通りに進んでいる。リアルタイムMRIと同時に音声データの収録を行なっており、今後は撮像時のMRIノイズを除去する音声強調を施して、データセットとして完備する。口唇動画からの音声合成については、これまで収集してきた音声コーパスやベースとなる再帰型のディープニューラルネットワークを使用するとともに、このネットワークモデルの性能向上を目指してGAN(敵対的生成ネットワーク)の適用を検討し、日本音響学会において研究発表をおこなった。同時に、従来から用いてきた再帰的ネットワーク構造と非再帰的構造の比較をおこない、それらの特徴や性能を明らかにした。これらの研究結果は、日本音響学会九州支部の発表会において公表した。本研究の成果は、口唇動画という最小限の調音情報からでも、了解可能な音声を合成できることを示している。特に、調音情報にはピッチや有声・無声のような音源に関連した情報が含まれていないことから、口唇の動きに関する時系列データを手がかりとして、アクセントやイントネーションまでを再現できることは注目に値すると言える。
为了利用信息技术扩大语音交流,我们对扩展构成其基础的发音和语音数据库以及提高唇形视频语音合成系统的复杂性进行了研究。关于发音/言语数据库,我们使用实时MRI(磁共振成像)对一名成年女性进行了音素平衡句子(ATR503句子)的观察实验,可以观察言语过程中整个声道的运动。使用同样的观察方法,目前已经完成了两名成人的数据收集,而通过这次测量实验,也完成了最初目标的三名成人的数据收集。因此,研究进展正在按原计划进行。音频数据与实时 MRI 同时记录,将来我们将添加音频增强功能以​​消除成像过程中的 MRI 噪声并完成数据集。对于唇部视频的语音合成,我们使用迄今为止收集的语音语料库和循环深度神经网络作为基础,并且我们还应用 GAN(生成对抗网络)来提高该网络模型的性能。在日本声学学会展示了我们的研究成果。同时,对常规使用的递归网络结构和非递归网络结构进行了比较,明确了它们的特点和性能。这些研究结果是在日本声学学会九州分会举办的演讲会上公布的。这项研究的结果表明,即使从唇形视频等最小的发音信息中也可以合成可理解的语音。特别是,由于发音信息不包括与声源相关的信息,例如音高以及是否有声或无声,所以值得注意的是,可以使用嘴唇运动的时间序列数据作为线索来再现重音和语调。我可以说。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
An investigation of the effectiveness of phase for audio classification
音频分类相位有效性的研究
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Shunsuke Hidaka; Kohei Wakamiya;Tokihiko Kaburagi
  • 通讯作者:
    Tokihiko Kaburagi
音分類課題において有効な位相情報の表現に関する検討
声音分类任务中相位信息的有效表示研究
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    日髙駿介; 若宮幸平; 鏑木時彦
  • 通讯作者:
    鏑木時彦
音響学講座 音声(上)
声学课程音频 (1)
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    滝口哲也(編著)鏑木時彦他(著)
  • 通讯作者:
    滝口哲也(編著)鏑木時彦他(著)
TransformerとGANを用いた口唇動画音声合成
使用 Transformer 和 GAN 合成唇形视频音频
  • DOI:
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    藤田直明;南汰翼;鏑木時彦
  • 通讯作者:
    鏑木時彦
九州大学研究者情報 鏑木時彦
九州大学研究员信息 镝木时彦
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

鏑木 時彦其他文献

A model of glottal flow incorporating viscous-inviscid interactlon
结合粘性-非粘性相互作用的声门流模型
  • DOI:
  • 发表时间:
    2007
  • 期刊:
  • 影响因子:
    0
  • 作者:
    鏑木 時彦; 田部 洋祐
  • 通讯作者:
    田部 洋祐
On the viscous-inviscid interaction of the flow passing throughthe glottis
关于流经声门的粘性-非粘性相互作用
  • DOI:
  • 发表时间:
    2008
  • 期刊:
  • 影响因子:
    0
  • 作者:
    鏑木 時彦
  • 通讯作者:
    鏑木 時彦
粘性-非粘性相互作用を考慮した声門流モデルの検討
考虑粘性-非粘性相互作用的声门流模型的检验
  • DOI:
  • 发表时间:
    2008
  • 期刊:
  • 影响因子:
    0
  • 作者:
    鏑木 時彦; 田部 洋祐
  • 通讯作者:
    田部 洋祐
境界層近似に基づく声門流れの解析
基于边界层近似的声门流分析
  • DOI:
  • 发表时间:
    2007
  • 期刊:
  • 影响因子:
    0
  • 作者:
    鏑木 時彦; 田部 洋祐
  • 通讯作者:
    田部 洋祐

鏑木 時彦的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

相似海外基金

3D Dynamic and Patient-Centered Outcomes of Facial Reanimation Surgery in Patients with Facial Paralysis
面瘫患者面部复活手术的 3D 动态和以患者为中心的结果
  • 批准号:
    10353424
  • 财政年份:
    2022
  • 资助金额:
    $ 2.66万
  • 项目类别:
Construction of Articulator Movement Instruction focusing on Facial Muscle Activity and Mandibular Movement and Verification of Effect in Pronunciation Training
以面肌活动和下颌运动为重点的咬合架运动教学构建及发音训练效果验证
  • 批准号:
    19K00922
  • 财政年份:
    2019
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Estimating changes in emotions and physical condition by non-contact information during utterance for the purpose of communication support
通过言语过程中的非接触信息来估计情绪和身体状况的变化,以达到沟通支持的目的
  • 批准号:
    19K12909
  • 财政年份:
    2019
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Construction of Articulator Movement Instruction focusing on Facial Muscle Activity and Mandibular Movement and Verification of Effect in Pronunciation Training
以面肌活动和下颌运动为重点的咬合架运动教学构建及发音训练效果验证
  • 批准号:
    19K00922
  • 财政年份:
    2019
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Development of a novel mobile application to assist in the diagnosis of Fetal Alcohol Syndrome (FAS)
开发新型移动应用程序以协助诊断胎儿酒精综合症(FAS)
  • 批准号:
    9905934
  • 财政年份:
    2019
  • 资助金额:
    $ 2.66万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了