モーラ遷移確率モデルによる韻律の表現と音声認識への利用に関する研究
基于mora转移概率模型的韵律表达及其在语音识别中的应用研究
基本信息
- 批准号:11878058
- 负责人:
- 金额:$ 1.28万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Exploratory Research
- 财政年份:1999
- 资助国家:日本
- 起止时间:1999 至 2000
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
基本周波数パターンを中心とする韻律的特徴をモーラ単位で表現し、その遷移確率モデルにより韻律に関する事項を表現して検出、識別を行い、その結果を音声認識に利用することを目的とし、以下の様に所期の目標を達成した。1.離散型HMMであるモーラ遷移確率モデルを連続分布モデルとすることの検討を行った。基本周波数パターンをスプライン補間した後、2次曲線で近似し、その係数をパラメータとすることで数%の境界検出率の向上を得た。2.休止が後続する場合、モーラ持続時間が閾値より大きい場合について個別にモデル化することにより、アクセント句境界検出率の数%程度の向上を得た。3.入力された連続音声を、まず音素HMMと文章単位のモーラbi-gramで認識し、得られたモーラ境界情報を利用して、モーラ遷移確率モデルによりアクセント句境界を検出する。次に、検出された境界情報を基に、アクセント句単位のモーラbi-gramを用いて再認識を行うことにより認識率の向上を達成する。この様な2段構成の認識アルゴリズムを構築して、ATR連続音声データベースを用いた認識実験で数%のモーラ認識率の向上を確認した。4.上記の前段認識とアクセント句境界検出において、2ベストを取って認識を進め、最終的なスコアによって確定することを行い、1ポイント程度のモーラ認識率の向上を達成した。さらに、後段の2ndベストを時間情報を考慮して利用することで認識率がさらに向上する可能性を示した。5.発話内容既知の場合について、開発した手法による韻律の自動ラベリングを行い、7割程度の精度でのラベリングが可能なことを示した。6.モーラ遷移確率モデルを結合することにより、アクセント型、フレーズ境界位置を入力としてアクセント句の基本周波数パターンを生成することを行った。モーラ境界での不連続を平滑化するこれにより、音声合成に利用可能なことを示した。
目的是表达以音节单元中的基频模式为中心的韵律特征,使用转移概率模型表达韵律物质,检测和识别它们,并将结果用于语音识别,我们实现了我们的预期目标。 1. 我们研究了将 Mora 转移概率模型(离散 HMM)转换为连续分布模型。对基频模式进行样条插值后,我们用二次曲线对其进行近似,并通过使用系数作为参数,我们能够将边界检测率提高几个百分点。 2.通过分别对停顿后的情况和音节持续时间大于阈值的情况进行建模,我们将重音短语边界检测率提高了几个百分点。 3.首先使用音素HMM和基于句子的音节二元组来识别输入的连续语音,并且使用所获得的音节边界信息使用音节转移概率模型来检测重音短语边界。接下来,基于检测到的边界信息,通过使用每个重音短语的音节二元组执行重新识别来提高识别率。通过构建这样的两阶段识别算法,我们在使用 ATR 连续语音数据库的识别实验中证实了音节识别率提高了几个百分点。 4、在上述第一阶段的识别和重音短语边界检测中,我们选择最好的两个结果进行识别,并确定最终的分数,实现了音节识别率约1分的提升。此外,结果表明,考虑到时间信息,在后期使用次优可以进一步提高识别率。 5.对于已知话语内容的情况,使用所开发的方法进行韵律自动标注,结果表明标注的准确率约为70%。 6.通过结合音节转移概率模型,我们使用重音类型和短语边界位置作为输入生成重音短语的基频模式。我们证明了这种方法可以通过平滑音节边界处的不连续性来用于语音合成。
项目成果
期刊论文数量(10)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
岩野公司: "モーラを単位とした基本周波数パターンの確率モデル化とそれによるアクセント句境界の検出"情報処理学会論文誌. 40・4. 1356-1364 (1999)
Koji Iwano:“使用 Mora 作为单位的基频模式的概率建模以及使用它的重音短语边界检测”日本信息处理学会汇刊 40・4(1999 年)。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
岩野公司: "Speaker-Independent detection of prosodic word boundary using mora transition modeling of fundamental frequency contours"Proc. Japan-China Symposium on Advanced Information Technology. 107-114 (1999)
Iwano, Ltd.:“使用基频轮廓的音节转换模型进行与说话人无关的韵律词边界检测”Proc. 中日先进信息技术研讨会 107-114 (1999)。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
岩野公司: "Prosodic word boundary detection using mora transition modeling of fundamental frequency contours --Speaker independent experiments--"Proc. European Conf. on Speech Communication and Technology. (1999)
Iwano, Ltd.:“使用基频轮廓的音节转换模型进行韵律词边界检测——与说话人无关的实验——”欧洲语音通信与技术会议(1999)。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
広瀬啓吉: "Statistical modeling of prosodic features and its use for speech recognition"Proc. International Conf. on Speech Processing. 1. 43-52 (1999)
Keikichi Hirose:“韵律特征的统计建模及其在语音识别中的应用”Proc。 1. 43-52 (1999)
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
岩野公司: "語彙制約なし音声認識へのアクセント句境界検出の統合"電子情報通信学会論文誌. J83-D-II・10. 1977-1985 (2000)
Koji Iwano:“将重音短语边界检测集成到没有词汇限制的语音识别中”,电子、信息和通信工程师学会汇刊 J83-D-II·1977-1985(2000 年)。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
広瀬 啓吉其他文献
種々の調子の音声合成のための韻律制御-感情音声合成の視点から-(招待講演)
各种声调语音合成的韵律控制——从情感语音合成的角度——(特邀报告)
- DOI:
- 发表时间:
2006 - 期刊:
- 影响因子:0
- 作者:
広瀬 啓吉 - 通讯作者:
広瀬 啓吉
広瀬 啓吉的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('広瀬 啓吉', 18)}}的其他基金
認知モデルと常識ベースに基づく情動を含む音声コミュニケーション
语音通信,包括基于认知模型和常识的情感
- 批准号:
08F08049 - 财政年份:2008
- 资助金额:
$ 1.28万 - 项目类别:
Grant-in-Aid for JSPS Fellows
劣条件下の混合音響信号の分離とその音声認識への利用
恶劣条件下混合声信号的分离及其在语音识别中的应用
- 批准号:
06F06099 - 财政年份:2006
- 资助金额:
$ 1.28万 - 项目类别:
Grant-in-Aid for JSPS Fellows
フィンランド人日本語学習者による日本語語い音調の韻律研究
芬兰日语学习者对日语声调的韵律研究
- 批准号:
05F05756 - 财政年份:2005
- 资助金额:
$ 1.28万 - 项目类别:
Grant-in-Aid for JSPS Fellows
フィンランド人日本語学習者による日本語語い音調の韻律研究
芬兰日语学习者对日语声调的韵律研究
- 批准号:
06F05756 - 财政年份:2005
- 资助金额:
$ 1.28万 - 项目类别:
Grant-in-Aid for JSPS Fellows
中国語基本周波数パターンの分析、定式化と合成手法の開発
中国基频模式分析、合成方法的制定和发展
- 批准号:
04F04035 - 财政年份:2004
- 资助金额:
$ 1.28万 - 项目类别:
Grant-in-Aid for JSPS Fellows
韻律に着目した音声言語情報処理の高度化に関する調査研究
以韵律为中心的口语信息处理进展研究
- 批准号:
10898014 - 财政年份:1998
- 资助金额:
$ 1.28万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
モデルの広がりを考慮した頑健な音声認識手法の研究
考虑模型扩散的鲁棒语音识别方法研究
- 批准号:
09878065 - 财政年份:1997
- 资助金额:
$ 1.28万 - 项目类别:
Grant-in-Aid for Exploratory Research
話者正規化による高精度多数話者単語音声認識システムとそのLSI化に関する研究
基于说话人归一化的高精度多说话人语音识别系统及其LSI实现研究
- 批准号:
03555070 - 财政年份:1991
- 资助金额:
$ 1.28万 - 项目类别:
Grant-in-Aid for Developmental Scientific Research (B)
光学的手段を用いた音声信号の分析と認識に関する研究
利用光学手段分析和识别音频信号的研究
- 批准号:
60580017 - 财政年份:1985
- 资助金额:
$ 1.28万 - 项目类别:
Grant-in-Aid for General Scientific Research (C)
韻律情報を用いた大語彙・連続単語音声認識
使用韵律信息的大词汇量/连续词语音识别
- 批准号:
58580019 - 财政年份:1983
- 资助金额:
$ 1.28万 - 项目类别:
Grant-in-Aid for General Scientific Research (C)
相似海外基金
Physiologic Stress and Epigenetic Mechanisms that Precipitate Risk for Suicidal Behavior in Nurses
导致护士自杀行为风险的生理压力和表观遗传机制
- 批准号:
10662820 - 财政年份:2023
- 资助金额:
$ 1.28万 - 项目类别:
Artificial Intelligence for Dynamic, individualized CPR guidance: AID CPR
人工智能提供动态、个性化的心肺复苏指导:AID CPR
- 批准号:
10644648 - 财政年份:2023
- 资助金额:
$ 1.28万 - 项目类别:
Investigating the Critical Role of Glia In Peripheral Organ Development and Physiology
研究神经胶质细胞在周围器官发育和生理学中的关键作用
- 批准号:
10676501 - 财政年份:2023
- 资助金额:
$ 1.28万 - 项目类别:
Defining and Exploiting the Circadian Clocks in Malaria Parasites
定义和利用疟疾寄生虫的昼夜节律时钟
- 批准号:
10687634 - 财政年份:2023
- 资助金额:
$ 1.28万 - 项目类别:
「聞き手に働きかける要素」の韻律的特徴とその習得をめぐって
论“影响听者的元素”的韵律特征及其习得
- 批准号:
23K00639 - 财政年份:2023
- 资助金额:
$ 1.28万 - 项目类别:
Grant-in-Aid for Scientific Research (C)