Large Vocabulary Continuous Speech Recognition System on Japanese Newspaper Reading Task
日语报纸阅读任务的大词汇量连续语音识别系统
基本信息
- 批准号:10680368
- 负责人:
- 金额:$ 2.11万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Scientific Research (C)
- 财政年份:1998
- 资助国家:日本
- 起止时间:1998 至 2000
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
We investigated large vocabulary continuous speech recognition (LVCSR) system on Japanese newspaper reading task, and obtained the following results.(1) Acoustic models : A Hidden Markov Network (HM-Net) is a highly accurate and robust acoustic model which represents a tied-state structure of context dependent Hidden Markov Models as a network. We propose a state clustering-based rapid topology design method to generate high accuracy HM-Nets for LVCSR.Furthermore, MLLR (Maximum Likelihood Linear Regression)-based speaker adaptation of acoustic models is investigated, and a regression class selection algorithm based on the BIC principle is proposed.(2) Language models : N-gram task adaptation method is investigated, which uses large corpus of the general task (TI text) and small corpus of the specific task (AD text), and employs a simple weighting to mix TI and AD texts. Furthermore we propose a new SCFG (Stochastic Context Free Grammar) model which uses a phrase-based dependency gramma … More r instead of general CFG.Word error rate in the case of using the mixture model besed on the proposed SCFG model and trigram becomes less than that in the case of using only the trigram.(3) Decoder : We investigate about fast search strategies for LVCSR, and propose a new method - a phoneme-graph-based hypothesis restriction, which effectually prunes the search space. In the proposed method, a phoneme graph is generated at the pre-processing stage, and then the best word sequence is searched while restricting expansion of hypotheses using the information of the phoneme graph at the main recognition stage. In the multiple pass LVCSR system that uses word graph as an intermediate data structure, decoder parameters should be optimized in order to generate a good word graph. A new method to optimize these parameters is proposed. This method uses rescoring of the word graph using bigram LM instead of generating many word graphs for each parameter setting.(4) Software Tool : We describe a statistical language model toolkit for word and class-based n-gram. This toolkit has command-level compatibility with CMU-Cambridge SLM Toolkit, and supports class n-gram and n-gram count mixture as well as combined language model using linear interpolation. Less
我们调查了日本报纸阅读任务上的大型词汇连续语音识别(LVCSR)系统,而Follts(1)声学模型:隐藏的马尔可夫网络(HM -NET)是一种高度准确且强大的声学模型依赖性的马尔可夫模型是LVCSR的GH精度。一般任务的大型语料库(TI文本)和特定任务的小语料库(AD文本),Andle加权以混合ti和AD文本。 trigam:我们调查了lvcsr的快速搜索,并提出了一种新方法 - 基于音素的假设限制,有效地将搜索空间重新处理。在主识别阶段的某些音素图中限制假设的扩展Word Graph使用为每个参数设置生成许多单词图的撤回。 n-gram级计数混音以及使用线性插值的组合语言模型。
项目成果
期刊论文数量(49)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
A.Ito, M.Kohda, M.Ostendorf: "A New Metric for Stochastic Language Model Evaluation"Proc. Euro. Conf. on Speech Commu. and Technology. Vol.4. 1591-1594 (1999)
A.Ito、M.Kohda、M.Ostendorf:“随机语言模型评估的新指标”Proc。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
加藤正治: "単語グラフ生成におけるパラメータ最適化の検討"電子情報通信学会技術研究報告. SP2000-93. 107-112 (2000)
加藤正治:“字图生成中的参数优化研究”IEICE技术研究报告107-112(2000)。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
伊藤彰則: "単語およびクラスN-gram作成のためのツールキット"電子情報通信学会技術研究報告. SP2000-106. 67-72 (2000)
Akinori Ito:“创建单词和类别 N 元语法的工具包”IEICE SP2000-106 (2000)。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
斎藤 秀樹: "bigram に基づく ergodic HMM による言語モデルの検討"日本音響学会講演論文集. 3-1-3. 101-102 (1999)
Hideki Saito:“基于二元语法的遍历 HMM 的语言模型研究”日本声学学会论文集 3-1-3(1999)。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
堀 智織: "確率文脈自由文法を用いた言語モデルの構築と音声認識実験による評価"電子情報通信学会技術研究報告. SP99-37. 79-86 (1999)
Tomoori Hori:“使用概率上下文无关语法构建语言模型并通过语音识别实验进行评估”IEICE 技术报告 SP99-37 (1999)。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
KOHDA Masaki其他文献
KOHDA Masaki的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('KOHDA Masaki', 18)}}的其他基金
Large-vocabulary continuous speech recognition on spontaneous speech task
自发语音任务的大词汇量连续语音识别
- 批准号:
18500126 - 财政年份:2006
- 资助金额:
$ 2.11万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Spontaneous speech recognition
自发语音识别
- 批准号:
15500098 - 财政年份:2003
- 资助金额:
$ 2.11万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Algorithm of Spontaneous Speech Recognition Based on A^<**> Search
基于A^<**>搜索的自发语音识别算法
- 批准号:
07680379 - 财政年份:1995
- 资助金额:
$ 2.11万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Speech Recognition Based on Intelligent Beam Search Algorithm
基于智能波束搜索算法的语音识别
- 批准号:
01460254 - 财政年份:1989
- 资助金额:
$ 2.11万 - 项目类别:
Grant-in-Aid for General Scientific Research (B)
相似国自然基金
基于深度学习的右心声学造影PFO-RLS和P-RLS智能诊断模型的构建
- 批准号:82302198
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
基于海洋-声场高精度耦合传播模型的智能声学信号识别方法研究
- 批准号:
- 批准年份:2022
- 资助金额:54 万元
- 项目类别:面上项目
面向复杂声学场景的类脑说话人提取模型与算法研究
- 批准号:
- 批准年份:2022
- 资助金额:54 万元
- 项目类别:面上项目
基于机器学习的隐性误吸声学判别机制及无创快筛模型构建研究
- 批准号:
- 批准年份:2022
- 资助金额:30 万元
- 项目类别:青年科学基金项目
融合深度学习和心理声学的南方林区鸟鸣声感知模型研究
- 批准号:
- 批准年份:2022
- 资助金额:53 万元
- 项目类别:面上项目
相似海外基金
Implantable Transducer Systems for Auditory Prostheses
用于听觉假体的植入式换能器系统
- 批准号:
10825738 - 财政年份:2023
- 资助金额:
$ 2.11万 - 项目类别:
Gamma-Music Based Intervention for Mild Alzheimer's Disease
基于伽玛音乐的轻度阿尔茨海默病干预
- 批准号:
10502921 - 财政年份:2022
- 资助金额:
$ 2.11万 - 项目类别:
Speech Intervention via Telepractice for Children with Repaired Cleft Palate : Randomized Controlled Trial and Assessment of Speech Production and Perception Skills
通过远程练习对腭裂修复儿童进行言语干预:言语产生和感知技能的随机对照试验和评估
- 批准号:
10280767 - 财政年份:2021
- 资助金额:
$ 2.11万 - 项目类别:
Characterizing the temporal processing of speech in the human auditory cortex
表征人类听觉皮层中语音的时间处理
- 批准号:
10211535 - 财政年份:2021
- 资助金额:
$ 2.11万 - 项目类别:
Spiral Ganglion Health: from Genomics to Gene Therapy
螺旋神经节健康:从基因组学到基因治疗
- 批准号:
10284638 - 财政年份:2021
- 资助金额:
$ 2.11万 - 项目类别: