Spoken Language Acquisition Agent with Fluent Intonation

语调流利的口语习得代理

基本信息

  • 批准号:
    22K12069
  • 负责人:
  • 金额:
    $ 2.66万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
  • 财政年份:
    2022
  • 资助国家:
    日本
  • 起止时间:
    2022-04-01 至 2025-03-31
  • 项目状态:
    未结题

项目摘要

音声対話エージェントが人手によるラベル付きデータに頼らずにマイクロホンやカメラを通して知覚した音声や画像から直接音声言語を学習する、音声言語獲得の仕組みについて取り組んだ。発達心理学的な知見から、エージェントが特定の言語に対する知識を持たない初期状態から出発し、共起する音声と画像の観察と対話の試行錯誤を通して自律的に音声言語を獲得することを実験タスクとしている。従来法は、エージェントの内部・外部状態に対して教師なし学習した音声辞書から単語を選択することにより最適な発話を行う仕組みとなっている。そのため、発話文が一単語発話に限られている制約がある。また音声発話の個人差を扱うことの困難性から、評価実験では合成音声が用いられていた。本年度は、従来の音声辞書に代えて書き起こしの無い音声から教師なし学習した言語モデルを使用する提案手法に取り組んだ。従来法では、音声と画像の共起をもとにした注意機構により強化学習の効率を高めていた。提案法ではそれに代わる仕組みとして、画像から文章を生成するニューラルネットと文章を入出力とするオートエンコーダを組み合わせた構造を持つネットワークをエージェントの方策関数として用いる。これにより画像と音声の関連性を教師なし学習し、エージェントが状態(場面)に応じた発話を強化学習により効率的に学習することが可能となった。また、多数話者により発声された音声をもとにエージェントの発声器官としての音声合成システムを教師なし学習する仕組みについて検討を進め、エージェントが合成音声データに変えて実音声データから音声発声を学習するための基礎的な結果を得た。
我们研究了一种获取口语的机制,其中口语对话代理直接从通过麦克风或摄像头感知的声音和图像来学习口语,而不依赖于手动标记的数据。根据发展心理学的研究结果,我们开发了一项实验任务,其中代理从不了解特定语言的初始状态开始,通过观察同时出现的声音、图像和对话的反复试验来自主获得口语。据说在传统方法中,最佳话语是通过基于代理的内部和外部状态从无监督语音词典中选择单词来执行的。因此,存在一个限制,即该话语仅限于一个词的话语。此外,由于难以处理语音表达的个体差异,因此在评估实验中使用了合成语音。今年,我们研究了一种提出的方​​法,该方法使用从未转录的语音中无监督学习的语言模型,而不是传统的语音词典。在传统方法中,强化学习的效率是通过基于音频和图像共现的注意力机制来提高的。在所提出的方法中,作为替代机制,具有结合从图像生成句子的神经网络和输入和输出句子的自动编码器的结构的网络被用作代理的策略函数。这使得能够对图像和声音之间的关系进行无监督学习,并允许智能体通过强化学习根据状态(场景)有效地学习话语。我们还在研究语音合成系统的无监督学习机制,该系统根据多个说话者发出的声音充当智能体的发声器官,并且智能体从真实语音数据而不是合成语音数据中学习语音产生,获得了基本结果。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
DNN-Rule Hybrid Dyna-Q for Sample-Efficient Task-Oriented Dialog Policy Learning
用于样本高效、面向任务的对话策略学习的 DNN-规则混合 Dyna-Q
  • DOI:
    10.23919/apsipaasc55919.2022.9980344
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Zhang Mingxin;Shinozaki Takahiro
  • 通讯作者:
    Shinozaki Takahiro
Automatic Spoken Language Acquisition Based on Observation and Dialogue
基于观察和对话的口语自动习得
  • DOI:
    10.1109/jstsp.2022.3189279
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    7.5
  • 作者:
    Komatsu Ryota;Gao Shengzhou;Hou Wenxin;Zhang Mingxin;Tanaka Tomohiro;Toyoda Keisuke;Kimura Yusuke;Hino Kent;Iwamoto Yu;Mori Kosuke;Okamoto Takuma;Shinozaki Takahiro
  • 通讯作者:
    Shinozaki Takahiro
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

篠崎 隆宏其他文献

英語学習者の発声自動評価を目的としたDNN音声認識システムの検討
英语学习者语音自动评价的DNN语音识别系统研究
  • DOI:
  • 发表时间:
    2017
  • 期刊:
  • 影响因子:
    0
  • 作者:
    加藤 拓;篠崎 隆宏
  • 通讯作者:
    篠崎 隆宏
進化的戦略による高精度大語彙音声認識システムの多目的最適化
利用进化策略的高精度大词汇量语音识别系统多目标优化
  • DOI:
  • 发表时间:
    2016
  • 期刊:
  • 影响因子:
    0
  • 作者:
    森谷 崇史;田中 智大;篠崎 隆宏;渡部 晋治;Duh Kevin
  • 通讯作者:
    Duh Kevin
半教師ありDNN学習を用いた日本語スピーキングテスト音声の認識
使用半监督DNN学习识别日语口语测试语音
  • DOI:
  • 发表时间:
    2017
  • 期刊:
  • 影响因子:
    0
  • 作者:
    加藤 拓;篠崎 隆宏
  • 通讯作者:
    篠崎 隆宏
End-to-Endニューラル対話モデルにおける単語分散表現の比較検討
端到端神经交互模型中词分布表示的比较研究
  • DOI:
  • 发表时间:
    2018
  • 期刊:
  • 影响因子:
    0
  • 作者:
    鄭 崇輝;李 知雨;王 文博;庄 佰融;篠崎 隆宏
  • 通讯作者:
    篠崎 隆宏
Slice Chain Max-Sumアルゴリズムによるタンパク質のポテンシャルエネルギー最小化に関する研究
基于Slice Chain Max-Sum算法的蛋白质势能最小化研究
  • DOI:
  • 发表时间:
    2012
  • 期刊:
  • 影响因子:
    0
  • 作者:
    猪瀬 直人;篠崎 隆宏;杜 世橋;古井 貞煕;関嶋 政和
  • 通讯作者:
    関嶋 政和

篠崎 隆宏的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

相似海外基金

協働学習過程を対象とした多元的な授業記録システムの開発と教師の授業省察への展開
协作学习过程多维课堂记录系统的开发及其在教师反思中的应用
  • 批准号:
    24K05633
  • 财政年份:
    2024
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
教材-学習者の疑問-教師の応答を視点とした理科の探究的な学びの促進と深化
教材-学习者的问题-从教师的回答角度促进和深化科学探索性学习
  • 批准号:
    24K06419
  • 财政年份:
    2024
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
A study on methods for evaluating road visibility conditions throughout the day using edge computing
利用边缘计算评估全天道路能见度状况的方法研究
  • 批准号:
    22KJ0072
  • 财政年份:
    2023
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
Study on direct PET image reconstruction using an unsupervised deep learning
基于无监督深度学习的直接 PET 图像重建研究
  • 批准号:
    22K07762
  • 财政年份:
    2022
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
外観検査AIを迅速に構築する外部駆動型視覚注視機構の確立
建立外部驱动的视觉凝视机制,快速构建视觉检测AI
  • 批准号:
    22K12169
  • 财政年份:
    2022
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了