韻律コーパスとその作成自動化

韵律语料库及其创建的自动化

基本信息

批准号：
12132204
负责人：
北澤茂良
金额：
$ 41.34万
依托单位：
Shizuoka University
依托单位国家：
日本
项目类别：
Grant-in-Aid for Scientific Research on Priority Areas
财政年份：
2000
资助国家：
日本
起止时间：
2000 至 2003
项目状态：
已结题

项目摘要

1.新規の韻律コーパスの作成(静岡大学)韻律コーパスとして日本語のMULTEXT韻律データベースの40パッセジにJ-ToBI韻律タグ付けを完了し、同様の手法で、筑波大学と千葉大学と東京大孝と東工大グループの既存音声コーパスの各種案内読上げと模擬対話と対話音声、マルチモーダル対話音声、天気予報、模擬感情音声へのJ-ToBIタグ付けを行った。これらのラベリング作業について研究支援者を雇用して行った。言語情報を利用した韻律ラベリング手法の開発と、音素ラベリング支援のための音素自動セグメンテーションと、連接境界における音響的特徴の詳細について研究成果を発表した。2.既存の音声コーパスの韻律分析と韻律コーパスの作成(筑波大学)既存の音声コーパスとして、日本音響学会「研究用連続音声データベース」の各種案内読上げ文と模擬対話、重点領域研究「音声対話」の対話音声コーパス、の3種のコーパスに基本周波数分析と発話ラベルと付与した。200ms以上の無音区間で区切られた音声区間を発話単位として、発話単位長を読上げ音声と模擬対話音声で比較した。模擬対話では間投詞や割込みによって発話単位が短くなる。音声パワーと基本周波数の標準偏差は対話に比べて読上げは狭い範囲に集中していることが分かった。3.ジェスチャー・顔表情付の対話音声収録(千葉大学)音声対話における視線や頷きなどジェスチャーを記録・分析するため、二台のプロンプター(映像提示装置)を介したマルチモーダルな自然対話の収録を行い、音声・ジェスチャーの収録とタグ付け作業を行った。話し手と聞き手のジェスチャーの相互作用に関して、話者継続時における発話単位終了時での話し手の頷きによって聞き手が相槌や頷きを9割近く返していること、話し手が頷かない場合でも言語情報や音声の韻律情報によって聞き手は反応を3割程度返していることを明らかにした。

1. Creating a new prosodic corpus (Shizuoka University) J-ToBI prosodic tagging was completed on 40 passages in the MULTEXT prosodic database in Japanese as prosodic corpus, and using the same method, various guide reading and mock dialogue and dialogue voices, multimodal dialogue voices, weather forecasts, and mock emotional voices were used to attach J-ToBI to the existing speech corpus of Tsukuba University, Chiba大学，东京大学高什大学和东京科技集团。为这些标签操作雇用了研究支持者。研究结果介绍了使用语言信息，自动音素分割以支持音素标记的韵律标记技术的开发以及在串联边界处的声学特征的详细信息。 2。对现有语音语料库的韵律分析和蓬松动力学语料库的创建（Tsukuba大学）作为现有的语音语料库，基本频率分析和话语标签被分配给三个语料库：来自日本的声音持续语音数据库的各种指导性的阅读句子和模拟对话，以及来自“对话”语言语料库，“与对话”语料库，以及来自关键研究的对话。将语音单位长度与语音间隔（以200毫秒或更多的语音单位单元为单位分隔）进行了比较，并将语音单位长度与读取和模拟对话语音进行了比较。在模拟对话中，插入和中断缩短了语音单元。发现与对话相比，音频功率和基本频率的标准偏差集中在狭窄的读数范围内。 3。用手势和面部表情对话（Chiba University）进行对话的音频记录，以记录和分析音频对话中的凝视和点头的手势，通过两个提示器（视频演示设备）记录了多模式的自然对话，并记录和标记了音频和姿势。关于说话者和听众的手势之间的相互作用，据透露，听众在讲话者继续时在演讲单位结束时点头的响应近90％，即使说话者不点头，听众也会对30％的响应，大约30％的声音信息和声音的张贴信息。