状態と出力に相互依存関係を有する確率モデルの構造最適化と頑健性強化に関する研究

状态与输出相互依赖的随机模型结构优化及鲁棒性增强研究

基本信息

  • 批准号:
    17700208
  • 负责人:
  • 金额:
    $ 1.6万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
  • 财政年份:
    2005
  • 资助国家:
    日本
  • 起止时间:
    2005 至 2006
  • 项目状态:
    已结题

项目摘要

本年度は,以下の2点について検討を行った.(1)部分隠れマルコフモデル(PHMM)のモデル構造最適選択PHMMのモデル構造を音韻毎に最適化する枠組みとして,昨年度は,評価基準として重み付き尤度比最大化基準を,最適化アルゴリズムとして遺伝的アルゴリズムを導入し,講演音声認識において従来法の誤りを削減した.本年度は,下記A)〜C)について詳細な検討を行った.A)評価関数:重み付き尤度比基準,最尤基準,ベイズ基準など複数の評価基準を導入し認識性能を評価したところ,識別的な基準である尤度比基準が最良の性能を与えることがわかった.B)最適化アルゴリズム:遺伝的アルゴリズムとタブサーチを用いたときの性能を評価したところ,タブサーチは局所解に陥りやすく,遺伝的アルゴリズムの方が高速に最適解に到達することがわかった.C)識別クラスの共有:探索の効率化のため音韻のクラスタリングを行ったが,最適化の段階でクラスを共有してしまうと,共有しない場合と同程度の性能を得られないことがわかった.(2)環境の変動に頑健な特徴量の検討PHMMのように高精度な確率モデルは,HMMなどの単純なモデルと比較して発話者や環境の変動の影響を受け易い.したがって,音響特徴量から発話者の情報や環境の情報を取り除き,識別に必要な情報である音韻情報のみを抽出する手法(識別情報抽出)について検討を行った.識別情報抽出として,HLDAやそれを拡張したManifold HLDA(MHLDA)を提案し,単語音声認識により評価を行ったところ,HLDAとMHLDAにより抽出されたパラメータを統合することで,環境の変動に対して頑健な性能を与えることがわかった.この知見を発展させ,HLDAにブースティングを導入した確率モデルの統合手法についても検討を行い,最尤識別に比べ頑健性の高い認識が可能になるという予備的な知見も得た.
今年,我们研究了以下两点:(1)部分隐马尔可夫模型(PHMM)的最优模型结构选择作为针对每个音素优化PHMM模型结构的框架,去年我们使用加权模型作为评估标准。介绍了遗传算法作为优化算法,使用似然比最大化准则来减少讲座语音识别中传统方法的错误。 2017年,我们对下面的A)到C)进行了详细的研究: A)评估函数:我们引入了加权似然比准则、最大似然准则、贝叶斯准则等多种评估标准来评估识别性能。似然比准则(一种判别准则)给出了最佳性能。B)优化算法:我们评估了使用遗传算法和选项卡搜索时的性能。 ,发现选项卡搜索容易陷入局部解,,遗传算法更快地达到最优解。,C) 识别类共享:,我们对音素进行聚类以提高搜索效率,但是最佳结果发现,如果在构造阶段共享类,则不可能获得与不共享时相同的性能。(2)检查对环境PHMM变化具有鲁棒性的特征HMM 等高精度概率模型比 HMM 等简单模型更容易受到说话者和环境变化的影响,因此,我们研究了一种方法(识别信息),从声学特征中删除有关说话者和环境的信息。提取)只提取语音信息,这是必要的信息当我们提出 HLDA (MHLDA) 并使用单词语音识别对其进行评估时,我们发现集成 HLDA 和 MHLDA 提取的参数可以提供针对环境波动的鲁棒性能。这一知识我们还研究了一种将 boosting 纳入 HLDA 的集成概率模型,并获得了初步发现,它比最大似然识别能够实现更稳健的识别。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
ロボット頭部に設置した4系統指向性マイクロホンによる音源定位におけるHLDA利用の効果
使用安装在机器人头部的四个定向麦克风使用 HLDA 进行声源定位的效果
ロボット頭部に設置したマイクロホンによる環境変動に頑健な音源定位
使用安装在机器人头部的麦克风针对环境变化进行稳健的声源定位
重み付きHLDAを用いた相補的識別器の構成
使用加权 HLDA 构建互补分类器
Optimizing the Structure of Partly-Hidden Markov Models Using Weighted Likelihood-Ratio Maximization Criterion
使用加权似然比最大化准则优化部分隐马尔可夫模型的结构
  • DOI:
  • 发表时间:
    2005
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Tetsuji Ogawa;Tetsunori Kobayashi
  • 通讯作者:
    Tetsunori Kobayashi
A Method for Solving the Permutation Problem of Frequency-Domain Blind Source Separation Usign Reference Signal
利用参考信号解决频域盲源分离排列问题的方法
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

小川 哲司其他文献

Calving Sign Detection of Breeding Cows Based on Video Monitoring - How to Construct and Operate a Video Monitoring System that Enables Users to Make Decisions with Conviction?
基于视频监控的种牛产犊征兆检测——如何构建和运营让用户有信心决策的视频监控系统?
  • DOI:
    10.11499/sicejl.61.746
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Terao Hayato;Noguchi Wataru;Iizuka Hiroyuki;Yamamoto Masahito;小山大嘉,青山一真,鳴海拓志,葛岡英明,雨宮智浩;小川 哲司
  • 通讯作者:
    小川 哲司
残響下音声認識評価基盤(CENSREC-4)の構築
混响语音识别评估平台(CENSREC-4)的构建
  • DOI:
  • 发表时间:
    2008
  • 期刊:
  • 影响因子:
    0
  • 作者:
    西浦 敬信;中山 雅人;傳田 遊亀;北岡 教英;山本 一公;山田 武志;藤本 雅清;柘植 覚;宮島 千代美;滝口 哲也;田村 哲嗣;小川 哲司;松田 繁樹;黒岩 眞吾;武田 一哉;中村 哲
  • 通讯作者:
    中村 哲
敵対的デノイジングオートエンコーダによる非線形ひずみ除去フィルタリング
使用对抗性去噪自动编码器进行非线性去失真滤波
  • DOI:
  • 发表时间:
    2018
  • 期刊:
  • 影响因子:
    0
  • 作者:
    俵 直弘 ;小林 哲則 ;藤枝 大 ;片桐 一浩 ;矢頭 隆 ;小川 哲司
  • 通讯作者:
    小川 哲司
雑音下音声認識評価ワーキンググループ活動報告:認識に影響する要因の個別評価環境(2)
噪声中语音识别评估工作组活动报告:影响识别因素的个体评估环境(2)
  • DOI:
  • 发表时间:
    2007
  • 期刊:
  • 影响因子:
    0
  • 作者:
    北岡 教英;山田 武志;滝口 哲也;柘植 覚;山本 一公、宮島 千代美;西浦 敬信;中山 雅人;傳田 遊亀;藤本 雅清 田村 哲嗣;松田 繁樹;小川 哲司;黒岩 眞吾;武田 一哉;中村 哲
  • 通讯作者:
    中村 哲
:スパコン「富岳」による飛沫・エアロゾル感染リスク評価のデジタルトランスフォーメーション
: 使用超级计算机“Fugaku”进行飞沫/气溶胶感染风险评估的数字化改造
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    日本音響学会;岩野 公司;河原 達也;篠田 浩一;伊藤 彰則;増村 亮;小川 哲司;駒谷 和範;鮫島俊哉;坪倉 誠
  • 通讯作者:
    坪倉 誠

小川 哲司的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('小川 哲司', 18)}}的其他基金

意思決定支援のための持続可能な状態監視システムの構築・運用法に関する研究
可持续状态监测系统建设与运行支持决策研究
  • 批准号:
    23K24892
  • 财政年份:
    2024
  • 资助金额:
    $ 1.6万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Research on sustainable fishery condition monitoring through cooperation between fishermen and artificial intelligence technology
渔民与人工智能技术合作可持续渔业状况监测研究
  • 批准号:
    22K19218
  • 财政年份:
    2022
  • 资助金额:
    $ 1.6万
  • 项目类别:
    Grant-in-Aid for Challenging Research (Exploratory)
Study on Construction and Operation Method of Sustainable Condition Monitoring System for Decision Support
可持续状态监测决策支持系统构建及运行方法研究
  • 批准号:
    22H03636
  • 财政年份:
    2022
  • 资助金额:
    $ 1.6万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)

相似海外基金

グローバルコミュニケーションに資する大脳皮質の音声情報処理機能単位の解明
阐明有助于全球交流的大脑皮层声音信息处理功能单元
  • 批准号:
    24K15685
  • 财政年份:
    2024
  • 资助金额:
    $ 1.6万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Studies of speech, image and natural language processing for multimodal spoken document retrieval
多模态语音文档检索的语音、图像和自然语言处理研究
  • 批准号:
    23K11216
  • 财政年份:
    2023
  • 资助金额:
    $ 1.6万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Measurement of L2 pronunciation deviation and L2 listening disfluency and its application to prosody training for smooth international communication
二语发音偏差和二语听力不流利度测量及其在国际交流顺畅韵律训练中的应用
  • 批准号:
    23K17459
  • 财政年份:
    2023
  • 资助金额:
    $ 1.6万
  • 项目类别:
    Grant-in-Aid for Challenging Research (Pioneering)
Establishment of intraoperative education model using speech recognition and language information processing technology
利用语音识别和语言信息处理技术建立术中教育模型
  • 批准号:
    23K16281
  • 财政年份:
    2023
  • 资助金额:
    $ 1.6万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
Statistical Parametric Instrumental Sound Synthesis with Controllable Context of Performance
具有可控性能背景的统计参数乐器声音合成
  • 批准号:
    22KJ2855
  • 财政年份:
    2023
  • 资助金额:
    $ 1.6万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了