End-to-End Model for Task-Independent Speech Understanding and Dialogue

与任务无关的语音理解和对话的端到端模型

基本信息

批准号：
20H00602
负责人：
河原達也
金额：
$ 28.62万
依托单位：
Kyoto University
依托单位国家：
日本
项目类别：
Grant-in-Aid for Scientific Research (A)
财政年份：
2020
资助国家：
日本
起止时间：
2020-04-01 至 2024-03-31
项目状态：
已结题

来源：
https://kaken.nii.ac.jp/en/grant/KAKENHI-PROJECT-20H00602/
关键词：
音声理解音声対話音声認識 End-to-Endモデル

项目摘要

End-to-Endモデルに基づく汎用的な音声理解・対話に関して、音声認識の高度化の観点と対話生成の観点から各々以下の研究を実施した。まず、人間どうしの自然な話し言葉音声から、フィラーや言い誤りの削除・句読点や脱落した助詞の挿入・口語的な表現の修正などの適宜必要な編集を行いながら、直接可読性の高い書き言葉スタイルの文を出力するEnd-to-Endモデルを設計・構築した。その際に、音声に忠実な書き起こしを疑似的に復元してEnd-to-Endモデルの学習を補助する手法と、句読点位置を手がかりとした音声区分化手法も併せて提案し、各々の効果を示した。衆議院審議音声を用いた評価実験により、提案手法は音声認識とテキストベースの話し言葉スタイル変換を組み合わせたカスケード型のアプローチより高精度かつ高速に会議録テキストを生成できることを確認した。次に、ユーザの入力発話からシステムの応答を生成するEnd-to-End(Seq-to-Seq)モデルにおいて、感情認識を統合するとともに、応答から入力発話を復元するモデルも統合学習することで、文脈理解と感情認識を伴った応答生成の実現を図った。感情認識と検索型の応答を組み合わせることで、共感的な対話が実現できることを確認した。さらに、音声認識モデルにおける自己教師付き学習の導入についても検討し、音声認識と言語認識・ドメイン認識を同時にEnd-to-Endモデルで行い、かつ後者の認識結果を利用することで、音声認識の精度が改善されることを示した。

关于基于端到端模型的通用语音理解和对话，以下研究是从改善语音识别和对话产生的角度进行的。首先，我们设计和构建了一个端到端模型，该模型以高度可读的书面句子的句子来输出句子，该句子是直接可读的，同时执行了适当的必要编辑，例如删除填充物和错误，插入标点符号，缺失的粒子，修改俗语，从人类的自然语音中进行修改。在这种情况下，我们还提出了一种模拟忠实于语音的方法，以帮助学习端到端模型，以及一种使用标点符号作为提示的语音分割的方法，显示了每种语音的影响。通过使用众议院众议院的语音审议的评估实验，我们证实了所提出的方法可以比结合语音识别和基于文本的口语单词样式转换的基于级联的方法更准确，更快地生成会议时间文本。接下来，在端到端（Seq-to-seq）模型中，从用户的输入话语产生了系统响应，我们整合了情感识别，并集成了从响应中恢复输入话语的学习模型，从而通过上下文理解和情感识别来实现响应的产生。我们确认可以通过结合情绪识别和基于搜索的回应来实现同理心对话。此外，我们还检查了语音识别模型中自我监督学习的引入，并表明可以使用端到端模型同时执行语音识别，语言识别和领域识别，并使用后一种识别结果，从而提高了语音识别的准确性。

项目成果

期刊论文数量（27）

专著数量（0）

科研奖励数量（0）

会议论文数量（0）

专利数量（0）

An end-to-end model from speech to clean transcript for parliamentary meetings

议会会议从演讲到干净文字记录的端到端模型

DOI：
发表时间：
2021
期刊：
影响因子：
0
作者：
M.Mimura;S.Sakai;and T.Kawahara
通讯作者：
and T.Kawahara

Selective multi-task learning for speech emotion recognition using corpora of different styles.

使用不同风格的语料库进行语音情感识别的选择性多任务学习。

DOI：
发表时间：
2022
期刊：
影响因子：
0
作者：
H.Zhang;M.Mimura;T.Kawahara;and K.Ishizuka.
通讯作者：
and K.Ishizuka.

音声対話システム

语音对话系统

DOI：
发表时间：
2006
期刊：
影响因子：
0
作者：
河原達也;荒木雅弘
通讯作者：
荒木雅弘

End-to-end speech emotion recognition combined with acoustic-to-word ASR model.

端到端语音情感识别结合声到词 ASR 模型。

DOI：
发表时间：
2020
期刊：
影响因子：
0
作者：
H.Feng;S.Ueno;and T.Kawahara.
通讯作者：
and T.Kawahara.

TriECCC: Trilingual Corpus of the Extraordinary Chambers in the Courts of Cambodia for Speech Recognition and Translation Studies

TriECCC：柬埔寨法院特别法庭用于语音识别和翻译研究的三语语料库

DOI：
10.1142/s2717554522500072
发表时间：
2022
期刊：
International Journal of Asian Language Processing
影响因子：
0
作者：
Soky Kak;Mimura Masato;Kawahara Tatsuya;Chu Chenhui;Li Sheng;Ding Chenchen;Sam Sethserey
通讯作者：
Sam Sethserey