Large Vocabulary Continuous Speech Recognition System on Japanese Newspaper Reading Task

日语报纸阅读任务的大词汇量连续语音识别系统

基本信息

  • 批准号:
    10680368
  • 负责人:
  • 金额:
    $ 2.11万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
  • 财政年份:
    1998
  • 资助国家:
    日本
  • 起止时间:
    1998 至 2000
  • 项目状态:
    已结题

项目摘要

We investigated large vocabulary continuous speech recognition (LVCSR) system on Japanese newspaper reading task, and obtained the following results.(1) Acoustic models : A Hidden Markov Network (HM-Net) is a highly accurate and robust acoustic model which represents a tied-state structure of context dependent Hidden Markov Models as a network. We propose a state clustering-based rapid topology design method to generate high accuracy HM-Nets for LVCSR.Furthermore, MLLR (Maximum Likelihood Linear Regression)-based speaker adaptation of acoustic models is investigated, and a regression class selection algorithm based on the BIC principle is proposed.(2) Language models : N-gram task adaptation method is investigated, which uses large corpus of the general task (TI text) and small corpus of the specific task (AD text), and employs a simple weighting to mix TI and AD texts. Furthermore we propose a new SCFG (Stochastic Context Free Grammar) model which uses a phrase-based dependency gramma … More r instead of general CFG.Word error rate in the case of using the mixture model besed on the proposed SCFG model and trigram becomes less than that in the case of using only the trigram.(3) Decoder : We investigate about fast search strategies for LVCSR, and propose a new method - a phoneme-graph-based hypothesis restriction, which effectually prunes the search space. In the proposed method, a phoneme graph is generated at the pre-processing stage, and then the best word sequence is searched while restricting expansion of hypotheses using the information of the phoneme graph at the main recognition stage. In the multiple pass LVCSR system that uses word graph as an intermediate data structure, decoder parameters should be optimized in order to generate a good word graph. A new method to optimize these parameters is proposed. This method uses rescoring of the word graph using bigram LM instead of generating many word graphs for each parameter setting.(4) Software Tool : We describe a statistical language model toolkit for word and class-based n-gram. This toolkit has command-level compatibility with CMU-Cambridge SLM Toolkit, and supports class n-gram and n-gram count mixture as well as combined language model using linear interpolation. Less
我们研究了日本报纸阅读任务上的大型词汇连续语音识别(LVCSR)系统,并获得了以下结果。(1)声学模型:隐藏的马尔可夫网络(HM-NET)是一种高度准确且可靠的声学模型,代表了上下文依赖的隐藏马克夫模型作为网络的匹配状态结构。我们提出了一种基于状态聚类的快速拓扑设计方法,以生成LVCSR的高精度HM Net。 (TI文本)和特定任务的小语料库(AD文本),以及员工简单的权重,可以混合Ti和Ad文本。我们提出了一个新的SCFG(随机上下文无语法)模型,该模型使用基于短语的依赖性gramma…更多而不是一般的CFG.单词错误率在使用拟议的SCFG模型和Trigram上使用的混合模型的情况下,单词错误率少于仅使用Trigram的情况。假设限制,有效地预处了搜索空间。在提出的方法中,在预处理阶段生成了音素图,然后在主要识别阶段使用音素图的信息限制假设的扩展时搜索了最佳单词序列。在使用Word Graph作为中间数据结构的多个Pass LVCSR系统中,应优化解码器参数以生成一个好的单词图。提出了一种优化这些参数的新方法。该方法使用使用BigRam LM的重新分组来重新计算,而不是为每个参数设置生成许多单词图。(4)软件工具:我们描述了一个用于单词和基于类的N-gram的统计语言模型工具包。该工具包具有与CMU-Cambridge SLM工具包的命令级兼容性,并支持N-gram和N-gram计数混合物以及使用线性插值的组合语言模型。较少的

项目成果

期刊论文数量(49)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
加藤正治: "単語グラフ生成におけるパラメータ最適化の検討"電子情報通信学会技術研究報告. SP2000-93. 107-112 (2000)
加藤正治:“字图生成中的参数优化研究”IEICE技术研究报告107-112(2000)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
A.Ito, M.Kohda, M.Ostendorf: "A New Metric for Stochastic Language Model Evaluation"Proc. Euro. Conf. on Speech Commu. and Technology. Vol.4. 1591-1594 (1999)
A.Ito、M.Kohda、M.Ostendorf:“随机语言模型评估的新指标”Proc。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
T.Hori, N.Oka, M.Katoh, A.Ito, M.Kohda: "A Study on a Phoneme-graph-based Hypothesis Restriction for Large Vocabulary Continuous Speech Recognition"Trans. IPSJ.. Vol.40, No.4. 1365-1373 (1999)
T.Hori、N.Oka、M.Katoh、A.Ito、M.Kohda:“基于音位图的大词汇连续语音识别假设限制的研究”Trans。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
T.Hori, M.Katoh, M.Kohda: "A Study on Heuristic Score Estimation in Viterbi Best-First Search for Isolated Word Recognition Using Continuous/Semi-Continuous HMMs"Trans. IEICE (D-II). Vol.J81-D-II, No.11. 2526-2534 (1998)
T.Hori、M.Katoh、M.Kohda:“使用连续/半连续 HMM 进行孤立词识别的维特比最佳优先搜索启发式分数估计的研究”Trans。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
伊藤彰則: "単語およびクラスN-gram作成のためのツールキット"電子情報通信学会技術研究報告. SP2000-106. 67-72 (2000)
Akinori Ito:“创建单词和类别 N 元语法的工具包”IEICE SP2000-106 (2000)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

KOHDA Masaki其他文献

KOHDA Masaki的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('KOHDA Masaki', 18)}}的其他基金

Large-vocabulary continuous speech recognition on spontaneous speech task
自发语音任务的大词汇量连续语音识别
  • 批准号:
    18500126
  • 财政年份:
    2006
  • 资助金额:
    $ 2.11万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Spontaneous speech recognition
自发语音识别
  • 批准号:
    15500098
  • 财政年份:
    2003
  • 资助金额:
    $ 2.11万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Algorithm of Spontaneous Speech Recognition Based on A^<**> Search
基于A^<**>搜索的自发语音识别算法
  • 批准号:
    07680379
  • 财政年份:
    1995
  • 资助金额:
    $ 2.11万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Speech Recognition Based on Intelligent Beam Search Algorithm
基于智能波束搜索算法的语音识别
  • 批准号:
    01460254
  • 财政年份:
    1989
  • 资助金额:
    $ 2.11万
  • 项目类别:
    Grant-in-Aid for General Scientific Research (B)

相似国自然基金

基于深度学习的右心声学造影PFO-RLS和P-RLS智能诊断模型的构建
  • 批准号:
    82302198
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
南海北部沉积物声学耗散机制及宽频预测模型
  • 批准号:
    12374428
  • 批准年份:
    2023
  • 资助金额:
    52.00 万元
  • 项目类别:
    面上项目
基于声学技术的煎炸油品质快速检测响应机制及其温度补偿模型研究
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
基于海洋-声场高精度耦合传播模型的智能声学信号识别方法研究
  • 批准号:
    62271459
  • 批准年份:
    2022
  • 资助金额:
    54.00 万元
  • 项目类别:
    面上项目
基于机器学习的隐性误吸声学判别机制及无创快筛模型构建研究
  • 批准号:
    82202818
  • 批准年份:
    2022
  • 资助金额:
    30.00 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

Implantable Transducer Systems for Auditory Prostheses
用于听觉假体的植入式换能器系统
  • 批准号:
    10825738
  • 财政年份:
    2023
  • 资助金额:
    $ 2.11万
  • 项目类别:
Gamma-Music Based Intervention for Mild Alzheimer's Disease
基于伽玛音乐的轻度阿尔茨海默病干预
  • 批准号:
    10502921
  • 财政年份:
    2022
  • 资助金额:
    $ 2.11万
  • 项目类别:
Speech Intervention via Telepractice for Children with Repaired Cleft Palate : Randomized Controlled Trial and Assessment of Speech Production and Perception Skills
通过远程练习对腭裂修复儿童进行言语干预:言语产生和感知技能的随机对照试验和评估
  • 批准号:
    10280767
  • 财政年份:
    2021
  • 资助金额:
    $ 2.11万
  • 项目类别:
Characterizing the temporal processing of speech in the human auditory cortex
表征人类听觉皮层中语音的时间处理
  • 批准号:
    10211535
  • 财政年份:
    2021
  • 资助金额:
    $ 2.11万
  • 项目类别:
Spiral Ganglion Health: from Genomics to Gene Therapy
螺旋神经节健康:从基因组学到基因治疗
  • 批准号:
    10284638
  • 财政年份:
    2021
  • 资助金额:
    $ 2.11万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了