認知モデルと常識ベースに基づく情動を含む音声コミュニケーション

语音通信，包括基于认知模型和常识的情感

基本信息

批准号：
08F08049
负责人：
広瀬啓吉
金额：
$ 1.02万
依托单位：
The University of Tokyo
依托单位国家：
日本
项目类别：
Grant-in-Aid for JSPS Fellows
财政年份：
2008
资助国家：
日本
起止时间：
2008 至 2009
项目状态：
已结题

项目摘要

昨年度、文の情動の程度を数値として表し、そこに含まれる感情の指標を抽出することを進めた。本年度は、その手法を高度化するとともに、得られる指標を合成音声に反映させることを中心に研究を進め、下記成果を達成した。1.ニュース文について、動詞に着目して各句の肯定/否定の程度を評点として数値化した上で、順接、逆節といった句間の関係から、文全体の肯定/否定の程度を評点として与える手法を開発した。評点を用いて、英語音声合成フリーウェアのMARY音声合成システムの韻律を制御することを行った。お祭りのニュースなど、文内容が肯定的な場合は基本周波数/発話速度を上げ、事故のような、否定的な場合は、下げることを基本とする制御を行うことにより、文内容にふさわしい合成音声を得た。2.認知モデルの立場から、喜び、悲しみなどの感情を、肯定/否定、興奮/抑制といった軸によって定式化し、文内容に含まれる感性情報を抽出する手法を開発した。肯定/否定、興奮/抑制の値によりMARY音声合成システムの韻律を制御することを行い、合成音声の聴取実験により抽出した感情が適切に反映されることを確認した。3.音声からそこに含まれる情動/感性を抽出する手法について、音響部分の構築として、スペクトルの周波数と時間方向の変化の特徴と韻律的特徴を用い、Support Vector Machine等による判別を行うことで、定型文に限定されているが、肯定と否定の情動の判別率90%を達成した。4.人間が生活する際に発生する種々の音から、人間の活動を推定する手法(Life Logging)の開発を進めた。音声認識で使われているMFCCを特徴量としたHMMを用いることで良好な音認識が可能なことを示した。

去年，我们在用数值表示句子中的情感程度并提取其中包含的情感指标方面取得了进展。今年，我们重点改进了方法，并将获得的指标反映在合成语音中，取得了以下成果。 1. 对于新闻句，以动词为中心，将各分句的肯定/否定程度量化为分数，然后根据直接从句、反演等从句之间的关系，对整个句子的肯定/否定程度进行打分我们开发了一种方法将其指定为我们使用分数来控制 MARY 语音合成系统的韵律，MARY 语音合成系统是一个免费的英语语音合成软件。当句子内容是积极的（例如有关节日的新闻）时，基本频率/语速会增加；而当内容是消极的（例如事故）时，基本频率/语速会降低，以创建适合句子内容的合成语音。我得到了它。 2.从认知模型的角度出发，我们开发了一种沿着肯定/否定和兴奋/抑制轴表达喜悦和悲伤等情绪，并提取句子内容中包含的情绪信息的方法。我们使用肯定/否定和兴奋/抑制的值来控制MARY语音合成系统的韵律，并通过合成语音的听力实验确认提取的情绪得到了适当的反映。 3.关于提取语音中包含的情感/感性的方法，我们利用频谱的频率和时间变化特征以及韵律特征来构造声学部分，并使用支持向量机等进行判别。尽管该方法仅限于固定短语，其积极情绪和消极情绪的辨别率达到90%。 4. 我们开发了一种方法（生命记录），可以根据人类生活中产生的各种声音来估计人类活动。我们证明，通过使用 MFCC（语音识别中使用的 MFCC）作为特征的 HMM，可以实现良好的声音识别。