Development of emotion recognition system by transfer learning for various speeches

通过各种语音的迁移学习开发情感识别系统

基本信息

批准号：
22K12087
负责人：
小坂哲夫
金额：
$ 2.58万
依托单位：
Yamagata University
依托单位国家：
日本
项目类别：
Grant-in-Aid for Scientific Research (C)
财政年份：
2022
资助国家：
日本
起止时间：
2022-04-01 至 2025-03-31
项目状态：
未结题

项目摘要

本年度は音声感情認識に関し以下の２点について検討した．1.言語的特徴および音響的特徴による感情認識の結果統合2.OGVC(オンラインゲームチャットコーパス)を対象とした音声認識1.について，従来我々は音声認識結果を深層学習モデルの一種であるBERTに入力し感情を認識する言語特徴を用いた方法と，音響特徴から時系列や統計量を用いて認識する２種類の出力を重み付き統合する方法を検討してきた．今回は２種類の特徴をディープニューラルネットワークで統合する方法を検討し，より高い性能を得ることができた．システムの概要としては，言語的特徴抽出のため，まず感情音声の音声認識を行い得られた誤りを含む音声認識結果を用いBERTで感情認識を行い4種類の感情に対する事後確率を得る．一方音響的特徴については，発話全体から各種特徴の統計量を得て認識する手法と，LSTMやGRUなどの時系列を表現できる深層学習モデルを用いて感情認識を行い，同様に事後確率を得る．その両者を統合してDNNに入力し最終的な認識結果を得る．日本語感情コーパスJTESを対象に評価を行った結果，4感情の識別タスクにおいて従来法では80.25%であったが提案法では82.25%を得ることができた．2.についてOGVCを対象に音声認識の検討を行い言語モデル適応が有効であることを示した．音響モデルにはJTESで適応したモデルを使用し，言語モデルはツイート文に適応したモデル，OGVCに適応したモデル，更にはツイート適応モデルを更にOGVCで適応したモデルの３種類を比較した．この結果いずれの方法も性能向上が得られることが分かったが，特にツイート適応が有効であることが分かった．

今年，我们针对语音情感识别研究了以下两点。 1. 使用语言特征和声学特征整合情感识别结果 2. OGVC（在线游戏聊天语料库）的语音识别我们研究了两种方法：一种使用语言特征从输入中识别情感，另一种使用时间序列和统计数据声学特征可识别两种类型的输出。这次，我们研究了一种使用深度神经网络集成两种类型特征的方法，并且能够获得更高的性能。作为系统的概述，为了提取语言特征，我们首先对情感语音进行语音识别，然后使用包含错误的语音识别结果用 BERT 进行情感识别，并获得四种情感的后验概率。另一方面，对于声学特征，情感识别是使用从整个话语中获取和识别各种特征的统计数据的方法以及可以表达时间序列的深度学习模型（例如LSTM和GRU）来执行的，并且类似地获取后验概率。．．两者整合后输入DNN，得到最终的识别结果。使用日本情感语料库 JTES 进行评估的结果是，传统方法在识别四种情感的任务中实现了 80.25%，而本文方法实现了 82.25%。关于2.，我们使用OGVC研究了语音识别，并表明语言模型自适应是有效的。我们使用 JTES 适配的模型作为声学模型，并比较了三种语言模型：适配推文文本的模型、适配 OGVC 的模型以及适配推文适配模型并进一步适配 OGVC 的模型。结果表明，两种方法都可以提高性能，但推文自适应尤其有效。