複数話者の音声コミュニケーションの意図・状況理解

了解多说话者语音通信的意图和情况

基本信息

  • 批准号:
    13224057
  • 负责人:
  • 金额:
    --
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas (C)
  • 财政年份:
    2001
  • 资助国家:
    日本
  • 起止时间:
    2001 至 无数据
  • 项目状态:
    已结题

项目摘要

会議・会話など人間どうしの音声を対象として、音声データの収集を行うとともに、その音響的・言語的そしてコミュニケーションの観点からのモデル化を行った。まず会議音声を対象として、階層的なアーカイブを構築し、議事録の作成支援を行うシステムを設計した。GMMによる話者識別を行い、その結果により音声を分割するとともに、話者IDや時間情報などのインデックスを生成する。また談話標識を含むキーフレーズの検出により議論の結論となる発話を特定し、議事次第や会議の配布資料などに含まれる話題依存語彙を利用して、これを自動的に書き起こし、議事録のドラフトとする。以上により音声・インデックス・テキストの3層からなるアーカイブを構築することができる。次に、この談話標識に基づく自動インデキシングを大規模な講演音声コーパスに対して適用・評価を行った。学習データの講演の書き起こしからポーズ情報を用いてセクション境界候補を検出し、統計的言語モデルを用いて句点を挿入して、各セクションの先頭の一文を抽出する。その中に含まれる名詞から単語頻度と文頻度に基づいて談話標識を選定する。これらの過程は人手によるタグを必要としない教師なし学習により行われる。評価データの各文について談話標識の単語頻度と文頻度の統計量に基づく評価値を計算し、その合計が閾値以上であればインデックスを付与する。実際の講演音声の書き起こしと音声認識結果に対して評価を行った結果、再現率85%程度(適合率は20%程度)の精度で話題セクション境界を自動検出することができた。
我们收集了人与人之间的声音(例如会议和对话中的声音)的音频数据,并从声学、语言和沟通的角度对其进行建模。首先,我们建立了会议音频的分层存档,并设计了一个支持会议记录创建的系统。利用GMM进行说话人识别,根据结果对音频进行划分,并生成说话人ID、时间信息等索引。此外,通过检测包括话语标记的关键短语,可以识别结束讨论的话语,并使用议程和会议讲义中包含的与主题相关的词汇自动转录。通过上述步骤,可以构建一个由三层组成的档案:音频、索引和文本。接下来,我们将基于此话语标记的自动索引应用于大型讲座演讲语料库并进行评估。我们使用暂停信息从训练数据的讲座转录中检测部分边界候选,使用统计语言模型插入句点,并提取每个部分的第一个句子。话语标记是根据词频和句子频率从其中包含的名词中选择的。这些过程是通过无监督学习执行的,不需要手动标记。根据话语指标的词频和句频的统计,计算评估数据中每个句子的评估值,如果总和等于或大于阈值,则分配指数。通过评估实际讲座音频的转录和语音识别结果,我们能够自动检测主题部分边界,召回率约为 85%(准确率约为 20%)。

项目成果

期刊论文数量(7)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
M.Mimura: "Difference of acoustic modeling for read speech and dialogue speech"Acoustical Science & Technology. 22. 373-374 (2001)
M.Mimura:“朗读语音和对话语音的声学建模的差异”声学科学
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
鹿野清宏: "音声認識システム"オーム社. 200 (2001)
Kiyohiro Kano:“语音识别系统”Ohmsha 200 (2001)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
K.Komatani: "Domain-independent spoken dialogue platform using key-phrase spotting based on combined language model"Proc.EUROSPEECH. 1319-1322 (2001)
K.Komatani:“使用基于组合语言模型的关键短语识别的领域独立口语对话平台”Proc.EUROSPEECH。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
河原達也: "連続音声認識コンソーシアム2000年度版ソフトウェアの概要と評価"情報処理学会研究報告. SLP-38-6. (2001)
Tatsuya Kawahara:“连续语音识别联盟2000版软件的总结和评估”日本信息处理学会研究报告(2001)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
A.Lee: "Gaussian mixture selection using context-independent HMM"Proc.IEEE-ICASSP. 1. 69-72 (2001)
A.Lee:“使用上下文无关 HMM 进行高斯混合选择”Proc.IEEE-ICASSP。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

河原 達也其他文献

京都市バス運行情報案内システムにおける実ユーザのふるまいの分析
京都市公交车运营信息引导系统的实际用户行为分析
多様な相槌をうつ傾聴対話システムのための相槌形態の予測
支持多种宜人内容的听力对话系统的宜人形式预测
  • DOI:
  • 发表时间:
    2015
  • 期刊:
  • 影响因子:
    0
  • 作者:
    山口 貴史;井上 昂治;吉野 幸一郎;高梨 克也;Nigel G. Ward;河原 達也
  • 通讯作者:
    河原 達也
原子核をプローブとした地球核周辺の局所構造探査
使用原子核作为探测器探索地核周围的局部结构
  • DOI:
  • 发表时间:
    2015
  • 期刊:
  • 影响因子:
    0
  • 作者:
    坂東 宜昭;糸山 克寿;昆陽 雅司;田所 諭;中臺 一博;吉井 和佳;河原 達也;奥乃 博;三井隆也
  • 通讯作者:
    三井隆也
音声対話システムにおけるユーザのふるまいの経時的変化の分析
分析语音对话系统中用户行为随时间的变化
モバイルMRシステム構築のための機能分散型フレームワーク(8)-アニメーションの表現力向上-
构建移动MR系统的功能分布式框架(8)-提高动画表现力-
  • DOI:
  • 发表时间:
    2013
  • 期刊:
  • 影响因子:
    0
  • 作者:
    平山 高嗣;角 康之;河原 達也;松山隆司;加藤芳秀,松原茂樹;川端大輔,木村朝子,柴田史久
  • 通讯作者:
    川端大輔,木村朝子,柴田史久

河原 達也的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('河原 達也', 18)}}的其他基金

End-to-End Model for Task-Independent Speech Understanding and Dialogue
与任务无关的语音理解和对话的端到端模型
  • 批准号:
    20H00602
  • 财政年份:
    2020
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for Scientific Research (A)
仮想空間のチームスポーツを介したコミュニケーションスキルの知的学習支援
通过虚拟空间中的团队运动来智能学习支持沟通技巧
  • 批准号:
    15F15049
  • 财政年份:
    2015
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
強化学習に基づく適応的な音声対話システム
基于强化学习的自适应口语对话系统
  • 批准号:
    10F00050
  • 财政年份:
    2010
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
用例に基づく対話制御を用いたコンピュータ支援型言語学習システム
使用基于示例的对话控制的计算机辅助语言学习系统
  • 批准号:
    10F00361
  • 财政年份:
    2010
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
ユーザ・状況に適応的な音声対話による大規模情報の検索・提示
通过适应用户和情况的语音对话搜索和呈现大规模信息
  • 批准号:
    19024044
  • 财政年份:
    2007
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
ユーザ・状況に適応的な音声対話による大規模情報の検索・提示
通过适应用户和情况的语音对话搜索和呈现大规模信息
  • 批准号:
    18049047
  • 财政年份:
    2006
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
複数話者の音声コミュニケーションの意図・状況理解
了解多说话者语音通信的意图和情况
  • 批准号:
    16016250
  • 财政年份:
    2004
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
複数話者の音声コミュニケーションの意図・状況理解
了解多说话者语音通信的意图和情况
  • 批准号:
    15017252
  • 财政年份:
    2003
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
複数話者の音声コミュニケーションの意図・状況理解
了解多说话者语音通信的意图和情况
  • 批准号:
    14019052
  • 财政年份:
    2002
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
キーフレーズ認識とその信頼度計算に基づく柔軟な音声対話理解
基于关键词识别的灵活语音对话理解及其可靠性计算
  • 批准号:
    09780328
  • 财政年份:
    1997
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)

相似海外基金

Studies on Multimodal Dialogue Control using Multimedia Corpus and Probability Model
基于多媒体语料库和概率模型的多模态对话控制研究
  • 批准号:
    18500115
  • 财政年份:
    2006
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
複数話者の音声コミュニケーションの意図・状況理解
了解多说话者语音通信的意图和情况
  • 批准号:
    16016250
  • 财政年份:
    2004
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
複数話者の音声コミュニケーションの意図・状況理解
了解多说话者语音通信的意图和情况
  • 批准号:
    15017252
  • 财政年份:
    2003
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
Development of corpus-based technologies for robust spoken dialogue systems
开发基于语料库的强大口语对话系统技术
  • 批准号:
    15300045
  • 财政年份:
    2003
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
複数話者の音声コミュニケーションの意図・状況理解
了解多说话者语音通信的意图和情况
  • 批准号:
    14019052
  • 财政年份:
    2002
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了