自然な発話による音声インタラクションのための言語モデルに関する研究

利用自然语音进行语音交互的语言模型研究

基本信息

  • 批准号:
    11J07766
  • 负责人:
  • 金额:
    $ 0.83万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
  • 财政年份:
    2011
  • 资助国家:
    日本
  • 起止时间:
    2011 至 2012
  • 项目状态:
    已结题

项目摘要

大規模な話し言葉のコーパス(音声言語データベース)は,様々な音声言語処理タスクにおいて重要である.しかし,話し言葉を正確に書き起こす作業は極めて高いコストを必要とするため,あらゆるドメインに対して,そのようなコーパスが入手できると仮定することは現実的ではない.それに対して,速記録や会議録は,正確な書き起こしより広く作成されており,比較的容易に入手が可能である.ただし,速記録や会議録では,可読性を高めるために,間投詞や言い淀み,言い直しなどの話し言葉特有の現象は削除され,話し言葉特有の言い回しは適切な書き言葉に置き換えられるなど,様々な整形処理がなされていることが一般的である.従って、このようなコーパスを,音声認識用音響モデルの学習に直接的に用いることは困難であった.そこで,本年度は,著者らが従来提案してきた速記録や会議録(整形された書き起こし)から正確に書き起こされた箇所を自動検出する手法を改良した.提案手法では,まず,整形された書き起こしとその原音声とでアラインメントを行い,アラインメントによって得られた素性に基づくSupport Vector Machine(SVM)を用いて,正確に書き起こされた箇所を自動検出する.従来手法とは異なり,音節を単位とする音響的素性を用いることで,検出精度を改善することができた.また,国会会議録を対象とした評価実験により,提案手法を用いて検出された正確な書き起こしは,音声認識用音響モデルの話者適応用データとして有効であることを示した.
大规模口语语料库(口语数据库)对于各种口语处理任务都很重要,但是,准确转录口语的任务非常昂贵,因此不可能将其用于任何领域。可用,相比之下,速记和会议纪要比精确抄本更广泛地产生,并且相对容易获得。 ,执行各种格式化过程是很常见的,例如用适当的书面文字替换特定于口语的短语。因此,不可能直接使用此类语料库来训练语音识别的声学模型。作者决定我们改进了一种从速记录音和会议记录(格式化转录)中自动检测准确转录部分的方法。所提出的方法首先根据对齐获得的特征在格式化转录与其原始音频支持之间进行对齐。我们使用向量机(SVM)自动检测准确转录的部分。与传统方法不同,我们能够通过以音节为单位使用声学特征来提高检测精度。此外,使用议会会议纪要进行的评估实验表明,使用议会会议记录检测到的准确转录。所提出的方法作为用于语音识别的声学模型的说话者自适应的数据是有效的。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Detection of Precisely Transcribed Parts from Inexact Transcribed Corpus
从不精确转录的语料库中检测精确转录的部分
  • DOI:
  • 发表时间:
    2011
  • 期刊:
  • 影响因子:
    0
  • 作者:
    田中信行;東森充;金子真;太田健吾
  • 通讯作者:
    太田健吾
Development of large vocabulary continuous speech recognition system for Mongolian language
  • DOI:
  • 发表时间:
    2012
  • 期刊:
  • 影响因子:
    0
  • 作者:
    S. Nakagawa;Erdenebat Turmunkh;Hiroshi Kibishi;Kengo Ohta;Yasuhisa Fujii;Masatoshi Tsuchiya;Kazumasa Yamamoto
  • 通讯作者:
    S. Nakagawa;Erdenebat Turmunkh;Hiroshi Kibishi;Kengo Ohta;Yasuhisa Fujii;Masatoshi Tsuchiya;Kazumasa Yamamoto
整形された書き起こしからの整形・非整形部分の自動検出
自动检测格式化转录本中的格式化和未格式化部分
  • DOI:
  • 发表时间:
    2012
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Tanaka N;Rondo M;Uchida R;Kaneko M;Sugiyama H;Yamato M;Okano T.;太田健吾
  • 通讯作者:
    太田健吾
ポーズを考慮した話し言葉言語モデルの構築
构建考虑停顿的口语模型
  • DOI:
  • 发表时间:
    2012
  • 期刊:
  • 影响因子:
    0
  • 作者:
    太田健吾;土屋雅稔;中川聖一
  • 通讯作者:
    中川聖一
Developing Partially-Transcribed Speech Corpus from Edited Transcriptions
从编辑的转录中开发部分转录的语音语料库
  • DOI:
  • 发表时间:
    2012
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Kumashiro Y;Matsunaga T;Muraoka M;Tanaka N;Itoga K;Kobayashi J;Tomiyama Y;Kuroda M;Shimizu T;Hashimoto I;Umemura K;Yamato M;Okano T.;太田健吾
  • 通讯作者:
    太田健吾
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

太田 健吾其他文献

背景差分と色の差異を利用した人物の追跡
利用背景差异和颜色差异跟踪人员
  • DOI:
  • 发表时间:
    2007
  • 期刊:
  • 影响因子:
    0
  • 作者:
    浅沼 健一;奥本 剛史;横田 悠一;前田 忠彦;久野 綾子;鄭 哲成;通山 和裕;坂本 憲昭;榎堀 優;森川 知憲;馬谷 達也;太田 健吾
  • 通讯作者:
    太田 健吾
カタクチイワシの体サイズ・産卵経験に伴う繁殖投資戦略
根据凤尾鱼体型和产卵经验制定养殖投资策略
  • DOI:
  • 发表时间:
    2015
  • 期刊:
  • 影响因子:
    0
  • 作者:
    米田 道夫;片山知史;河野 悌昌;山本昌幸;長谷川 淳;津崎 龍雄;山田 徹生;太田 健吾
  • 通讯作者:
    太田 健吾
Multimodal dialog with photorealistic CG agent
具有真实感 CG 代理的多模式对话
タスク外音響情報を付加した End-to-End 音声認識モデルの設計
添加任务外声学信息的端到端语音识别模型的设计
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    森 大輝;太田 健吾;西村 良太;小川 厚徳;北岡 教英
  • 通讯作者:
    北岡 教英

太田 健吾的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('太田 健吾', 18)}}的其他基金

教育効果を考慮した大規模音声言語モデルに基づく教材生成AIの構築
考虑教育效果的基于大规模口语模型的教材生成人工智能构建
  • 批准号:
    24K06322
  • 财政年份:
    2024
  • 资助金额:
    $ 0.83万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
オンライン講義の学びを活性化するソーシャルアノテーションに基づく講義要約システム
基于社交标注的讲座摘要系统,盘活在线讲座学习
  • 批准号:
    21K13641
  • 财政年份:
    2021
  • 资助金额:
    $ 0.83万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists

相似海外基金

Emotion detection from speech using high-accuracy emotional speech recognition
使用高精度情绪语音识别进行语音情绪检测
  • 批准号:
    19K12014
  • 财政年份:
    2019
  • 资助金额:
    $ 0.83万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Automatic acquisition of optimized acoustic model unit for automatic speech recognition using deep learning
使用深度学习自动获取用于自动语音识别的优化声学模型单元
  • 批准号:
    19K12027
  • 财政年份:
    2019
  • 资助金额:
    $ 0.83万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Knowledge acquisition from unknown domain data with segmental clustering
通过分段聚类从未知领域数据获取知识
  • 批准号:
    17K12718
  • 财政年份:
    2017
  • 资助金额:
    $ 0.83万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
Automatic Improvement of Acoustic and Language Models of Automatic Speech Recognition through Spoken Dialogue
通过口语对话自动改进自动语音识别的声学和语言模型
  • 批准号:
    15K16051
  • 财政年份:
    2015
  • 资助金额:
    $ 0.83万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
Self-Organized Learning of Speech Recognition and Synthesis Systems
语音识别和合成系统的自组织学习
  • 批准号:
    26280055
  • 财政年份:
    2014
  • 资助金额:
    $ 0.83万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了