End-to-End Model for Task-Independent Speech Understanding and Dialogue

与任务无关的语音理解和对话的端到端模型

基本信息

  • 批准号:
    20H00602
  • 负责人:
  • 金额:
    $ 28.62万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research (A)
  • 财政年份:
    2020
  • 资助国家:
    日本
  • 起止时间:
    2020-04-01 至 2024-03-31
  • 项目状态:
    已结题

项目摘要

End-to-Endモデルに基づく汎用的な音声理解・対話に関して、音声認識の高度化の観点と対話生成の観点から各々以下の研究を実施した。まず、人間どうしの自然な話し言葉音声から、フィラーや言い誤りの削除・句読点や脱落した助詞の挿入・口語的な表現の修正などの適宜必要な編集を行いながら、直接可読性の高い書き言葉スタイルの文を出力するEnd-to-Endモデルを設計・構築した。その際に、音声に忠実な書き起こしを疑似的に復元してEnd-to-Endモデルの学習を補助する手法と、句読点位置を手がかりとした音声区分化手法も併せて提案し、各々の効果を示した。衆議院審議音声を用いた評価実験により、提案手法は音声認識とテキストベースの話し言葉スタイル変換を組み合わせたカスケード型のアプローチより高精度かつ高速に会議録テキストを生成できることを確認した。次に、ユーザの入力発話からシステムの応答を生成するEnd-to-End(Seq-to-Seq)モデルにおいて、感情認識を統合するとともに、応答から入力発話を復元するモデルも統合学習することで、文脈理解と感情認識を伴った応答生成の実現を図った。感情認識と検索型の応答を組み合わせることで、共感的な対話が実現できることを確認した。さらに、音声認識モデルにおける自己教師付き学習の導入についても検討し、音声認識と言語認識・ドメイン認識を同時にEnd-to-Endモデルで行い、かつ後者の認識結果を利用することで、音声認識の精度が改善されることを示した。
关于基于端到端模型的通用语音理解和对话,以下研究是从改善语音识别和对话产生的角度进行的。首先,我们设计和构建了一个端到端模型,该模型以高度可读的书面句子的句子来输出句子,该句子是直接可读的,同时执行了适当的必要编辑,例如删除填充物和错误,插入标点符号,缺失的粒子,修改俗语,从人类的自然语音中进行修改。在这种情况下,我们还提出了一种模拟忠实于语音的方法,以帮助学习端到端模型,以及一种使用标点符号作为提示的语音分割的方法,显示了每种语音的影响。通过使用众议院众议院的语音审议的评估实验,我们证实了所提出的方法可以比结合语音识别和基于文本的口语单词样式转换的基于级联的方法更准确,更快地生成会议时间文本。接下来,在端到端(Seq-to-seq)模型中,从用户的输入话语产生了系统响应,我们整合了情感识别,并集成了从响应中恢复输入话语的学习模型,从而通过上下文理解和情感识别来实现响应的产生。我们确认可以通过结合情绪识别和基于搜索的回应来实现同理心对话。此外,我们还检查了语音识别模型中自我监督学习的引入,并表明可以使用端到端模型同时执行语音识别,语言识别和领域识别,并使用后一种识别结果,从而提高了语音识别的准确性。

项目成果

期刊论文数量(27)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
An end-to-end model from speech to clean transcript for parliamentary meetings
议会会议从演讲到干净文字记录的端到端模型
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    M.Mimura;S.Sakai;and T.Kawahara
  • 通讯作者:
    and T.Kawahara
Selective multi-task learning for speech emotion recognition using corpora of different styles.
使用不同风格的语料库进行语音情感识别的选择性多任务学习。
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    H.Zhang;M.Mimura;T.Kawahara;and K.Ishizuka.
  • 通讯作者:
    and K.Ishizuka.
音声対話システム
语音对话系统
  • DOI:
  • 发表时间:
    2006
  • 期刊:
  • 影响因子:
    0
  • 作者:
    河原達也;荒木雅弘
  • 通讯作者:
    荒木雅弘
End-to-end speech emotion recognition combined with acoustic-to-word ASR model.
端到端语音情感识别结合声到词 ASR 模型。
  • DOI:
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    0
  • 作者:
    H.Feng;S.Ueno;and T.Kawahara.
  • 通讯作者:
    and T.Kawahara.
TriECCC: Trilingual Corpus of the Extraordinary Chambers in the Courts of Cambodia for Speech Recognition and Translation Studies
TriECCC:柬埔寨法院特别法庭用于语音识别和翻译研究的三语语料库
  • DOI:
    10.1142/s2717554522500072
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Soky Kak;Mimura Masato;Kawahara Tatsuya;Chu Chenhui;Li Sheng;Ding Chenchen;Sam Sethserey
  • 通讯作者:
    Sam Sethserey
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

河原 達也其他文献

京都市バス運行情報案内システムにおける実ユーザのふるまいの分析
京都市公交车运营信息引导系统的实际用户行为分析
多様な相槌をうつ傾聴対話システムのための相槌形態の予測
支持多种宜人内容的听力对话系统的宜人形式预测
  • DOI:
  • 发表时间:
    2015
  • 期刊:
  • 影响因子:
    0
  • 作者:
    山口 貴史;井上 昂治;吉野 幸一郎;高梨 克也;Nigel G. Ward;河原 達也
  • 通讯作者:
    河原 達也
モバイルMRシステム構築のための機能分散型フレームワーク(8)-アニメーションの表現力向上-
构建移动MR系统的功能分布式框架(8)-提高动画表现力-
  • DOI:
  • 发表时间:
    2013
  • 期刊:
  • 影响因子:
    0
  • 作者:
    平山 高嗣;角 康之;河原 達也;松山隆司;加藤芳秀,松原茂樹;川端大輔,木村朝子,柴田史久
  • 通讯作者:
    川端大輔,木村朝子,柴田史久
原子核をプローブとした地球核周辺の局所構造探査
使用原子核作为探测器探索地核周围的局部结构
  • DOI:
  • 发表时间:
    2015
  • 期刊:
  • 影响因子:
    0
  • 作者:
    坂東 宜昭;糸山 克寿;昆陽 雅司;田所 諭;中臺 一博;吉井 和佳;河原 達也;奥乃 博;三井隆也
  • 通讯作者:
    三井隆也
音声対話システムにおけるユーザのふるまいの経時的変化の分析
分析语音对话系统中用户行为随时间的变化

河原 達也的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('河原 達也', 18)}}的其他基金

仮想空間のチームスポーツを介したコミュニケーションスキルの知的学習支援
通过虚拟空间中的团队运动来智能学习支持沟通技巧
  • 批准号:
    15F15049
  • 财政年份:
    2015
  • 资助金额:
    $ 28.62万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
強化学習に基づく適応的な音声対話システム
基于强化学习的自适应口语对话系统
  • 批准号:
    10F00050
  • 财政年份:
    2010
  • 资助金额:
    $ 28.62万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
用例に基づく対話制御を用いたコンピュータ支援型言語学習システム
使用基于示例的对话控制的计算机辅助语言学习系统
  • 批准号:
    10F00361
  • 财政年份:
    2010
  • 资助金额:
    $ 28.62万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
ユーザ・状況に適応的な音声対話による大規模情報の検索・提示
通过适应用户和情况的语音对话搜索和呈现大规模信息
  • 批准号:
    19024044
  • 财政年份:
    2007
  • 资助金额:
    $ 28.62万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
ユーザ・状況に適応的な音声対話による大規模情報の検索・提示
通过适应用户和情况的语音对话搜索和呈现大规模信息
  • 批准号:
    18049047
  • 财政年份:
    2006
  • 资助金额:
    $ 28.62万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
複数話者の音声コミュニケーションの意図・状況理解
了解多说话者语音通信的意图和情况
  • 批准号:
    16016250
  • 财政年份:
    2004
  • 资助金额:
    $ 28.62万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
複数話者の音声コミュニケーションの意図・状況理解
了解多说话者语音通信的意图和情况
  • 批准号:
    15017252
  • 财政年份:
    2003
  • 资助金额:
    $ 28.62万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
複数話者の音声コミュニケーションの意図・状況理解
了解多说话者语音通信的意图和情况
  • 批准号:
    14019052
  • 财政年份:
    2002
  • 资助金额:
    $ 28.62万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
複数話者の音声コミュニケーションの意図・状況理解
了解多说话者语音通信的意图和情况
  • 批准号:
    13224057
  • 财政年份:
    2001
  • 资助金额:
    $ 28.62万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas (C)
キーフレーズ認識とその信頼度計算に基づく柔軟な音声対話理解
基于关键词识别的灵活语音对话理解及其可靠性计算
  • 批准号:
    09780328
  • 财政年份:
    1997
  • 资助金额:
    $ 28.62万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)

相似海外基金

Spoken Language Acquisition Agent with Fluent Intonation
语调流利的口语习得代理
  • 批准号:
    22K12069
  • 财政年份:
    2022
  • 资助金额:
    $ 28.62万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Shogi feedback support system using spoken dialogue
使用口头对话的将棋反馈支持系统
  • 批准号:
    19K20341
  • 财政年份:
    2019
  • 资助金额:
    $ 28.62万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
Research on cooking support using large-scale recipe data based on sound environment understanding and dialogue management technology
基于声环境理解和对话管理技术的大规模菜谱数据烹饪支持研究
  • 批准号:
    18K11369
  • 财政年份:
    2018
  • 资助金额:
    $ 28.62万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
A study of speech information processing based on mathematical models for speaker and linguistic information and there probabilistic integration
基于说话者和语言信息数学模型及其概率集成的语音信息处理研究
  • 批准号:
    25730105
  • 财政年份:
    2013
  • 资助金额:
    $ 28.62万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
Study on a speech understanding system with an ability to estimate the effect of various environments and users on recognition accuracy
研究能够估计各种环境和用户对识别精度影响的语音理解系统
  • 批准号:
    21500165
  • 财政年份:
    2009
  • 资助金额:
    $ 28.62万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了