A study on content summarization for large spoken documents and content retrieval through spoken dialogue
大型口语文档内容摘要及口语对话内容检索研究
基本信息
- 批准号:13480095
- 负责人:
- 金额:$ 9.47万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Scientific Research (B)
- 财政年份:2001
- 资助国家:日本
- 起止时间:2001 至 2004
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
To develop an accurate large vocabulary continuous speech recognition system for spoken document retrieval in open domain, we proposed a search method using two search algorithms in parallel to achieve efficient and accurate decoding. We evaluated this new search algorithm and obtained significant improvement of recognition performance without severe increase of computational cost We also proposed to apply machine learning techniques to the task of combining outputs of multiple LVCSR models. The proposed technique had advantages over that by voting schemes such as ROVER, especially when the majority of participating models are not reliable. By using this technique, we performed a speech-driven Web retrieval task and improved speech recognition accuracy of spoken queries and then improved retrieval accuracy in speech driven Web retrieval We tried the summarization of spoken lectures. For this purpose, we investigated relations between linguistic surface information and human's results, and we obtained useful surface linguistic information. Next, we summarized spoken lectures based on this information, and compared them with human's results. As a result, we obtained a better F-measure and k-value comparable with human's results. We have developed a portable speech recognition module and an interpreter module in a spoken dialogue system. Furthermore, we also developed a dialogue strategy design tool, applied it to Mt.Fuji sightseeing guidance retrieval, literature retrieval and hotel reservation retrieval and then confirmed the usefulness.
为了开发一种精确的大词汇量连续语音识别系统,用于开放域中的语音文档检索,我们提出了一种并行使用两种搜索算法的搜索方法,以实现高效、准确的解码。我们评估了这种新的搜索算法,并在不严重增加计算成本的情况下获得了识别性能的显着提高。我们还建议将机器学习技术应用于组合多个 LVCSR 模型的输出的任务。所提出的技术比 ROVER 等投票方案具有优势,特别是当大多数参与模型不可靠时。通过使用这种技术,我们执行了语音驱动的 Web 检索任务,提高了语音查询的语音识别准确性,然后在语音驱动的 Web 检索中提高了检索准确性。我们尝试了口语讲座的摘要。为此,我们研究了语言表面信息与人类结果之间的关系,并获得了有用的表面语言信息。接下来,我们根据这些信息总结了口语讲座,并将其与人类的结果进行了比较。结果,我们获得了与人类结果相当的更好的 F 测量和 k 值。我们开发了便携式语音识别模块和口语对话系统中的翻译模块。此外,我们还开发了对话策略设计工具,并将其应用于富士山观光指南检索、文献检索和酒店预订检索,并验证了其实用性。
项目成果
期刊论文数量(56)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Satoshi Kobayashi: "Extracting summarizing of lectures based on linguistic surface and prosodic information"Proc.Workshop on Spontaneous Speech Processing and recognition. 211-214 (2003)
Satoshi Kobayashi:“基于语言表面和韵律信息提取讲座摘要”Proc. 自发语音处理和识别研讨会。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
Masamitsu Umeda: "Interpreter for highly portable spoken dialogue system"Proc.4-th Sigdial Workshop on discourse and Dialogue. 105-114 (2003)
Masamitsu Umeda:“高度便携口语对话系统的翻译”Proc.4-th Sigdial 话语和对话研讨会。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
Detection and recognition of correction Utterances on miss-recognition of spoken dialog system.
口语对话系统误识别的纠正话语检测与识别。
- DOI:
- 发表时间:2004
- 期刊:
- 影响因子:0
- 作者:Norihide Kitaoka
- 通讯作者:Norihide Kitaoka
機械学習を用いた複数の大語彙連続音声認識モデルの出力の混合
使用机器学习混合多个大词汇量连续语音识别模型的输出
- DOI:
- 发表时间:2004
- 期刊:
- 影响因子:0
- 作者:C.Nattee;宇津呂武仁
- 通讯作者:宇津呂武仁
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
NAKAGAWA Seiichi其他文献
小学校のICT活用をモデルとした保育での取り組み
以小学使用信息通信技术为蓝本的儿童保育举措
- DOI:
- 发表时间:
2020 - 期刊:
- 影响因子:0
- 作者:
SEKI Hiroshi;YAMAMOTO Kazumasa;AKIBA Tomoyosi;NAKAGAWA Seiichi;堀田博史・佐藤朝美・中村恵;中川聖一;堀田博史・佐藤朝美・森田健宏 - 通讯作者:
堀田博史・佐藤朝美・森田健宏
幼児教育でのタブレット端末等の活用
幼儿教育中平板设备等的利用
- DOI:
- 发表时间:
2020 - 期刊:
- 影响因子:0
- 作者:
SEKI Hiroshi;YAMAMOTO Kazumasa;AKIBA Tomoyosi;NAKAGAWA Seiichi;堀田博史・佐藤朝美・中村恵 - 通讯作者:
堀田博史・佐藤朝美・中村恵
最近の音声言語処理研究の動向 - 筆者の音声認識、音声翻訳、話者認識の研究を中心として -
口语处理研究的最新动态 - 重点关注作者在语音识别、语音翻译、说话人识别方面的研究 -
- DOI:
- 发表时间:
2019 - 期刊:
- 影响因子:0
- 作者:
SEKI Hiroshi;YAMAMOTO Kazumasa;AKIBA Tomoyosi;NAKAGAWA Seiichi;堀田博史・佐藤朝美・中村恵;中川聖一 - 通讯作者:
中川聖一
NAKAGAWA Seiichi的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('NAKAGAWA Seiichi', 18)}}的其他基金
A detection method using relative phase information for spoofed speech based on speech synthesis, speaker adaptation and edited speech
一种基于语音合成、说话人适应和编辑语音的利用相对相位信息的欺骗语音检测方法
- 批准号:
16K12461 - 财政年份:2016
- 资助金额:
$ 9.47万 - 项目类别:
Grant-in-Aid for Challenging Exploratory Research
Study on privacy protection in spoken language
口语隐私保护研究
- 批准号:
22650034 - 财政年份:2010
- 资助金额:
$ 9.47万 - 项目类别:
Grant-in-Aid for Challenging Exploratory Research
High accuracy transcription, cleaning and fast term detection for spoken documents
语音文档的高精度转录、清理和快速术语检测
- 批准号:
22300059 - 财政年份:2010
- 资助金额:
$ 9.47万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
Automatic indexing for lecture speech and its advanced utilization through speech interaction
讲座演讲自动索引及其通过语音交互的高级利用
- 批准号:
17300064 - 财政年份:2005
- 资助金额:
$ 9.47万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
Development for speech interface for form -based in formation access services on Web
基于表单的Web信息访问服务语音接口的开发
- 批准号:
13558033 - 财政年份:2001
- 资助金额:
$ 9.47万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
Studies on Speech Recognition, Closed Caption and Summarization of Broadcast News
广播新闻语音识别、隐藏式字幕和摘要研究
- 批准号:
09480064 - 财政年份:1997
- 资助金额:
$ 9.47万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
Development of a multi-modal dialogue system and a tool for a spoken dialogue system
多模态对话系统和口语对话系统工具的开发
- 批准号:
08558030 - 财政年份:1996
- 资助金额:
$ 9.47万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
A study on multi-modal man-machine interface through spontaneous speech
基于自发语音的多模态人机界面研究
- 批准号:
06452401 - 财政年份:1994
- 资助金额:
$ 9.47万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
A Research for the Formation of Basic Concepts in Physics
物理学基本概念形成的研究
- 批准号:
05680163 - 财政年份:1993
- 资助金额:
$ 9.47万 - 项目类别:
Grant-in-Aid for General Scientific Research (C)
A Study on Ambiguous Utterance Understanding for Speech Input
语音输入的歧义话语理解研究
- 批准号:
03452167 - 财政年份:1991
- 资助金额:
$ 9.47万 - 项目类别:
Grant-in-Aid for General Scientific Research (B)
相似国自然基金
面向汉译英口语测试中自动评测方法的研究
- 批准号:61877013
- 批准年份:2018
- 资助金额:45.0 万元
- 项目类别:面上项目
基于深度学习的鲁棒口语理解研究
- 批准号:61573241
- 批准年份:2015
- 资助金额:64.0 万元
- 项目类别:面上项目
口语对话系统技术在自由表述语言学习中的应用研究-以新疆少数民族学生的普通话学习为例
- 批准号:61365005
- 批准年份:2013
- 资助金额:45.0 万元
- 项目类别:地区科学基金项目
中文自动口语摘要技术研究
- 批准号:61170197
- 批准年份:2011
- 资助金额:55.0 万元
- 项目类别:面上项目
基于非平稳测度与置信权的动态选择语音识别模型
- 批准号:10571103
- 批准年份:2005
- 资助金额:28.0 万元
- 项目类别:面上项目
相似海外基金
Characterizing bilingual spoken language experiences in preschoolers with hearing loss
描述患有听力损失的学龄前儿童的双语口语体验
- 批准号:
10802499 - 财政年份:2023
- 资助金额:
$ 9.47万 - 项目类别:
Feature Representation Learning and Imagined Speech Recognition by Simultaneous Recording of Spoken Language Stimuli and EEG
通过同时记录口语刺激和脑电图进行特征表示学习和想象语音识别
- 批准号:
22K19828 - 财政年份:2022
- 资助金额:
$ 9.47万 - 项目类别:
Grant-in-Aid for Challenging Research (Exploratory)
Phase 2 Development of a Spoken Language Biomarker of Cognitive Impairment in Parkinson's Disease
帕金森病认知障碍口语生物标志物的二期开发
- 批准号:
9903270 - 财政年份:2019
- 资助金额:
$ 9.47万 - 项目类别:
A Spoken Language Knowledge Expansion Framework for Real-World Speech Recognition Using Deep Learning Technology and Human Collaboration
利用深度学习技术和人类协作进行现实世界语音识别的口语知识扩展框架
- 批准号:
18K11431 - 财政年份:2018
- 资助金额:
$ 9.47万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Automatic Improvement of Acoustic and Language Models of Automatic Speech Recognition through Spoken Dialogue
通过口语对话自动改进自动语音识别的声学和语言模型
- 批准号:
15K16051 - 财政年份:2015
- 资助金额:
$ 9.47万 - 项目类别:
Grant-in-Aid for Young Scientists (B)