Development of a mutual conversion method between face image and voice during speech

语音时人脸图像与声音相互转换方法的开发

基本信息

  • 批准号:
    22K12916
  • 负责人:
  • 金额:
    $ 2.33万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
  • 财政年份:
    2022
  • 资助国家:
    日本
  • 起止时间:
    2022-04-01 至 2026-03-31
  • 项目状态:
    未结题

项目摘要

本年度は,唇動画像から音声を生成する方法を確立するため,入力画像の種類の違いと話者に対する頑健性について検討を行った。一般に唇動画像から発話内容を推定する研究においては,唇近辺を切り抜いた動画像が入力として用いられている。しかしこうした画像の中には,肌の色や唇の大きさの違い,といった個人性情報も含まれるため,特にモデル学習に利用した話者と異なる話者に対しては性能が劣化することが考えられる。そこで入力画像をより単純化し,個人性を排除した場合の性能について検討を行った。唇画像から,唇の輪郭にそって20点の特徴点を抽出し,それの座標値をそのまま入力した場合と,特徴点間を直線で結び,唇を単純な図形で表現した上で入力した場合について性能を評価した。なお,音声生成に用いるニューラルネットワークの構造や音声特徴量は,本研究開始前に検討を行っていたモデルと同じものを利用した。また評価には,劣化した音声の了解度を測る指標のひとつであるSTOI(Short-Time Objective Intelligibility measure)を利用した。1名の発話データでモデル学習と評価を行ったところ,入力に唇動画像を用いた時はSTOIが0.496であったのに対し,座標値は0.441,単純な図形表現は0.431と性能が劣化することがわかった。これは,入力データを単純にすることで,音声生成に必要な情報まで落ちてしまっているのが原因と思われる。3名の発話データでモデルを学習し,学習に用いた話者(既知話者)と用いなかった話者(未知話者)に対する性能をそれぞれ評価したところ,唇動画像では未知話者に対する性能が,既知話者に対する性能と比較して24%程度劣化した。一方,特徴点の座標値や単純な図形表現を入力した場合は,17%程度の性能劣化にとどまっており,より話者に対する頑健性が得られていることがわかった。
今年,为了建立一种从唇部移动图像中生成音频的方法,我们检查了输入图像类型和对说话者的鲁棒性的差异。通常,在估算唇部移动图像的语音内容的研究中,将带有嘴唇附近的切口的移动图像用作输入。但是,这些图像还包含个人信息,例如肤色和唇部尺寸的差异,因此性能可能会恶化,尤其是对于与模型学习不同的扬声器而言。因此,我们进一步简化了输入图像,并在消除个性时检查了性能。当从嘴唇图像沿着Lip的轮廓提取20个特征点时,评估了性能,并且这些点的坐标值按原样输入,并且当特征点与直线连接时,在输入它们之前将其表示为简单的图形。此外,用于语音生成的神经网络的结构和语音特征量与本研究开始之前正在研究的模型相同。此外,为了进行评估,我们使用了Stoi(短时客观的可理解性措施),这是测量音频变质的可理解性的指标之一。当使用一个人的语音数据进行模型学习和评估时,发现使用唇部运动图像作为输入时,Stoi为0.496,而坐标值为0.441,简单的几何表示为0.431,导致性能差。这可能是因为简化输入数据已导致丢失音频的必要信息。使用三个人的话语数据学习了该模型,当评估未使用的扬声器的演讲者的性能(已知的扬声器)时(不知名的说话者)时,与已知扬声器的性能相比,未知扬声器在唇部运动图像中的表现降低了约24%。另一方面,当输入特征点坐标值和简单的图形表示时,性能降解仅约17%,表明它对扬声器更健壮。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
唇動画像からの音声生成法における入力特徴量の単純化に関する検討
唇动图像语音生成方法输入特征简化研究
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

鈴木 基之其他文献

Spotify音楽データを用いたユーザの感情に基づく音楽推薦手法の提案
利用Spotify音乐数据提出基于用户情感的音乐推荐方法
  • DOI:
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Yukonhiatou Chaxiong;Yoshihisa Tomoki;Kawakami Tomoya;Teranishi Yuuichi;Shimojo Shinji;撫佐昭裕;鈴木 基之;鈴木基之;曽田円香,志風美雨,辻愛美紗,中野美由紀
  • 通讯作者:
    曽田円香,志風美雨,辻愛美紗,中野美由紀

鈴木 基之的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('鈴木 基之', 18)}}的其他基金

HPV関連中咽頭癌の前癌病変の同定と自然史の解明に基づくバイオマーカーの探索
基于癌前病变的识别和 HPV 相关口咽癌自然史的阐明来寻找生物标志物
  • 批准号:
    24K12671
  • 财政年份:
    2024
  • 资助金额:
    $ 2.33万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
HMnetを用いたLSP係数の極低ビットレート符号化法の開発
使用HMnet开发LSP系数的极低比特率编码方法
  • 批准号:
    17760293
  • 财政年份:
    2005
  • 资助金额:
    $ 2.33万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
離散型HMnetを用いた音声認識システム用言語モデルの自動獲得手法の開発
基于离散HMnet的语音识别系统自动语言模型获取方法的开发
  • 批准号:
    11780244
  • 财政年份:
    1999
  • 资助金额:
    $ 2.33万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
環境汚染物質の人体影響評価のための簡易模擬人体システムの開発に関する基礎研究
开发简单人体系统评估环境污染物对人体影响的基础研究
  • 批准号:
    08878072
  • 财政年份:
    1996
  • 资助金额:
    $ 2.33万
  • 项目类别:
    Grant-in-Aid for Exploratory Research
ゼロエミッションをめざした物質循環プロセスの構築
构建以零排放为目标的物质循环流程
  • 批准号:
    08358022
  • 财政年份:
    1996
  • 资助金额:
    $ 2.33万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
ゼロエミッションをめざした物質循環プロセスの構築
构建以零排放为目标的物质循环流程
  • 批准号:
    07355015
  • 财政年份:
    1995
  • 资助金额:
    $ 2.33万
  • 项目类别:
    Grant-in-Aid for Co-operative Research (B)
人間-環境系の変化と制御・総合班
人类-环境系统变化与控制/综合团队
  • 批准号:
    04202114
  • 财政年份:
    1993
  • 资助金额:
    $ 2.33万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
人間ー環境系の変化と制御・総合班
人类-环境系统变化与控制/综合团队
  • 批准号:
    03202115
  • 财政年份:
    1991
  • 资助金额:
    $ 2.33万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
古代〜中世の錘の研究
古代至中世纪重量的研究
  • 批准号:
    02904041
  • 财政年份:
    1990
  • 资助金额:
    $ 2.33万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (B)
人間ー環境系の変化と制御・総合班
人类-环境系统变化与控制/综合团队
  • 批准号:
    02202112
  • 财政年份:
    1990
  • 资助金额:
    $ 2.33万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas

相似海外基金

音声・楽器音の物理的生成過程を加味した深層音分析合成法の確立
建立考虑人声和器乐声音物理产生过程的深度声音分析和合成方法
  • 批准号:
    24KJ1236
  • 财政年份:
    2024
  • 资助金额:
    $ 2.33万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
呼気の高速流体計算を基盤とする音声生成の総括的研究
基于呼气高速流体计算的语音生成综合研究
  • 批准号:
    24K15010
  • 财政年份:
    2024
  • 资助金额:
    $ 2.33万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
外国語の音声学習における生成AIの有効性と可能性
生成式人工智能在外语语音学习中的有效性和潜力
  • 批准号:
    24K04068
  • 财政年份:
    2024
  • 资助金额:
    $ 2.33万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
教育効果を考慮した大規模音声言語モデルに基づく教材生成AIの構築
考虑教育效果的基于大规模口语模型的教材生成人工智能构建
  • 批准号:
    24K06322
  • 财政年份:
    2024
  • 资助金额:
    $ 2.33万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
九州・沖縄方言の継承支援に資する音声対話型生成系AIの開発
开发支持九州、冲绳方言传承的语音对话生成系统AI
  • 批准号:
    24K00074
  • 财政年份:
    2024
  • 资助金额:
    $ 2.33万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了