Development of a mutual conversion method between face image and voice during speech

语音时人脸图像与声音相互转换方法的开发

基本信息

批准号：
22K12916
负责人：
鈴木基之
金额：
$ 2.33万
依托单位：
Osaka Institute of Technology
依托单位国家：
日本
项目类别：
Grant-in-Aid for Scientific Research (C)
财政年份：
2022
资助国家：
日本
起止时间：
2022-04-01 至 2026-03-31
项目状态：
未结题

项目摘要

本年度は，唇動画像から音声を生成する方法を確立するため，入力画像の種類の違いと話者に対する頑健性について検討を行った。一般に唇動画像から発話内容を推定する研究においては，唇近辺を切り抜いた動画像が入力として用いられている。しかしこうした画像の中には，肌の色や唇の大きさの違い，といった個人性情報も含まれるため，特にモデル学習に利用した話者と異なる話者に対しては性能が劣化することが考えられる。そこで入力画像をより単純化し，個人性を排除した場合の性能について検討を行った。唇画像から，唇の輪郭にそって20点の特徴点を抽出し，それの座標値をそのまま入力した場合と，特徴点間を直線で結び，唇を単純な図形で表現した上で入力した場合について性能を評価した。なお，音声生成に用いるニューラルネットワークの構造や音声特徴量は，本研究開始前に検討を行っていたモデルと同じものを利用した。また評価には，劣化した音声の了解度を測る指標のひとつであるSTOI（Short-Time Objective Intelligibility measure）を利用した。1名の発話データでモデル学習と評価を行ったところ，入力に唇動画像を用いた時はSTOIが0.496であったのに対し，座標値は0.441，単純な図形表現は0.431と性能が劣化することがわかった。これは，入力データを単純にすることで，音声生成に必要な情報まで落ちてしまっているのが原因と思われる。3名の発話データでモデルを学習し，学習に用いた話者（既知話者）と用いなかった話者（未知話者）に対する性能をそれぞれ評価したところ，唇動画像では未知話者に対する性能が，既知話者に対する性能と比較して24%程度劣化した。一方，特徴点の座標値や単純な図形表現を入力した場合は，17%程度の性能劣化にとどまっており，より話者に対する頑健性が得られていることがわかった。

今年，为了建立一种从唇部移动图像中生成音频的方法，我们检查了输入图像类型和对说话者的鲁棒性的差异。通常，在估算唇部移动图像的语音内容的研究中，将带有嘴唇附近的切口的移动图像用作输入。但是，这些图像还包含个人信息，例如肤色和唇部尺寸的差异，因此性能可能会恶化，尤其是对于与模型学习不同的扬声器而言。因此，我们进一步简化了输入图像，并在消除个性时检查了性能。当从嘴唇图像沿着Lip的轮廓提取20个特征点时，评估了性能，并且这些点的坐标值按原样输入，并且当特征点与直线连接时，在输入它们之前将其表示为简单的图形。此外，用于语音生成的神经网络的结构和语音特征量与本研究开始之前正在研究的模型相同。此外，为了进行评估，我们使用了Stoi（短时客观的可理解性措施），这是测量音频变质的可理解性的指标之一。当使用一个人的语音数据进行模型学习和评估时，发现使用唇部运动图像作为输入时，Stoi为0.496，而坐标值为0.441，简单的几何表示为0.431，导致性能差。这可能是因为简化输入数据已导致丢失音频的必要信息。使用三个人的话语数据学习了该模型，当评估未使用的扬声器的演讲者的性能（已知的扬声器）时（不知名的说话者）时，与已知扬声器的性能相比，未知扬声器在唇部运动图像中的表现降低了约24％。另一方面，当输入特征点坐标值和简单的图形表示时，性能降解仅约17％，表明它对扬声器更健壮。

项目成果

期刊论文数量（0）

专著数量（0）

科研奖励数量（0）

会议论文数量（0）

专利数量（0）

唇動画像からの音声生成法における入力特徴量の単純化に関する検討

唇动图像语音生成方法输入特征简化研究

DOI：
发表时间：
2023
期刊：
日本音響学会音声研究会資料
影响因子：
0
作者：
金澤尚希;鈴木基之
通讯作者：
鈴木基之

DOI：
{{ item.doi }}
发表时间：
{{ item.publish_year }}
期刊：
{{ item.journal_name }}
影响因子：
{{ item.factor }}
作者：
{{ item.authors }}
通讯作者：
{{ item.author }}

数据更新时间：{{ journalArticles.updateTime }}

作者：
{{ item.author }}

数据更新时间：{{ monograph.updateTime }}

作者：
{{ item.author }}

数据更新时间：{{ sciAawards.updateTime }}

作者：
{{ item.author }}

数据更新时间：{{ conferencePapers.updateTime }}

作者：
{{ item.author }}

数据更新时间：{{ patent.updateTime }}

鈴木基之其他文献

Spotify音楽データを用いたユーザの感情に基づく音楽推薦手法の提案

利用Spotify音乐数据提出基于用户情感的音乐推荐方法

DOI：
发表时间：
2023
期刊：
影响因子：
0
作者：
Yukonhiatou Chaxiong;Yoshihisa Tomoki;Kawakami Tomoya;Teranishi Yuuichi;Shimojo Shinji;撫佐昭裕;鈴木基之;鈴木基之;曽田円香，志風美雨，辻愛美紗，中野美由紀
通讯作者：
曽田円香，志風美雨，辻愛美紗，中野美由紀