構造的不変表象を基盤とした柔軟な音声合成技術の構築
基于结构不变表示的灵活语音合成技术构建
基本信息
- 批准号:10J08861
- 负责人:
- 金额:$ 0.9万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for JSPS Fellows
- 财政年份:2010
- 资助国家:日本
- 起止时间:2010 至 2011
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
本研究課題では、人間の音声コミュニケーションの解明とそのメディア情報処理による実現を念頭に、人間の音声活動に着眼した上で、構造的不変表象を基盤とした音声合成技術の高精度化に取り組んだ。これまでに提案した音声合成のフレームワークを幼児の音声模倣のモデルとして解釈し、空間探索問題としての定式化を行い、その評価関数に基づく最適化によって高精度化を実現した。本年度における研究課題の遂行では、話者性と言語性の分離・統合という観点から提案する音声合成技術をより柔軟なものにすることを検討した。この際、入力発声の話者性を所望の話者のものへと変えて出力する声質変換と呼ばれる技術に着眼し、これに音声翻訳や音声認識の知見から分離・統合の確率モデルを導入することで、言語性及び話者性のモデル化に別々の手法を利用し、これを統合できる可能性を示した。具体的には、言語性のモデル化について入出力話者間の変換関係を記述する混合正規分布モデルを、話者性のモデル化には出力話者の音声空間をモデル化する混合正規分布モデルをそれぞれ独立に学習・導入することで、従来変換関係の構築に必要だったパラレルコーパスの必要性を削減し、さらに変換性能の高精度化を可能とした。また本年度研究課題遂行の後半においては、韻律的特徴の全体的変化を捉えてモデル化することに着眼し、少数のパラメータでピッチパターンの時間変化をモデル可能な基本周波数パターン生成過程モデルと呼ばれるモデルに着目し、これを用いて入出力話者の基本周波数パターンを記述した上で、その対応関係を変化差分で記述手法について検討した。本年度の検討事項は、構造的不変表象との組み合わせを意図したものであり、それぞれフレームワークの確率的な拡張、および韻律的特徴への導入として位置づけられ、今後構造的不変表象との統合を通して、研究目的である柔軟な音声合成技術の完成を目指す。
在这个研究项目中,我们关注人类的声音活动,致力于提高基于结构不变表示的语音合成技术的准确性,旨在阐明人类的声音交流并通过媒体信息处理来实现。我们将迄今为止提出的语音合成框架解释为婴儿语音模仿的模型,将其表述为空间搜索问题,并通过基于其评估函数的优化实现了高精度。在今年开展的研究项目中,我们考虑从分离和整合说话人特征和语言特征的角度,使所提出的语音合成技术更加灵活。此时,我们专注于一种称为语音质量转换的技术,该技术将输入话语的说话人特征更改为所需说话人的特征,并引入了基于语音翻译和语音识别知识的分离和集成的概率模型。证明了使用单独的方法对语言和说话者特征进行建模并将其集成的可能性。具体来说,我们使用描述输入和输出说话人之间的变换关系的混合正态分布模型来建模语言特征,以及对输出说话人的语音空间进行建模的混合正态分布模型来建模说话人特征。我们减少了对传统上构建转换关系所需的并行语料库的需求,并使得进一步提高转换性能的准确性成为可能。此外,在今年下半年的研究项目中,我们将专注于捕捉和建模韵律特征的整体变化,并将开发一种称为基频模式生成过程模型的模型,该模型可以用很小的频率来模拟音调模式的时间变化。我们关注这一点并用它来描述输入和输出扬声器的基频模式,然后研究一种使用变化差异来描述对应关系的方法。今年的考虑意在与结构不变表征相结合,分别定位为框架的概率扩展和韵律特征的介绍,通过与结构不变表征的结合,本研究的目标是完成灵活的语音合成技术。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Probabilistic integration of joint density model and speaker model for voice conversion
- DOI:10.21437/interspeech.2010-496
- 发表时间:2010
- 期刊:
- 影响因子:0
- 作者:D. Saito;Shinji Watanabe;Atsushi Nakamura;N. Minematsu
- 通讯作者:D. Saito;Shinji Watanabe;Atsushi Nakamura;N. Minematsu
基本周波数パターン生成過程モデルを用いた声質変換の高精度化に関する検討
利用基本频率模式生成过程模型提高语音质量转换精度的研究
- DOI:
- 发表时间:2011
- 期刊:
- 影响因子:0
- 作者:橋本浩弥;齋藤大輔;峯松信明;広瀬啓吉
- 通讯作者:広瀬啓吉
変換モデルと話者モデルの確率的統合に基づく声質変換法の検討
基于转换模型和说话人模型随机集成的语音质量转换方法研究
- DOI:
- 发表时间:2010
- 期刊:
- 影响因子:0
- 作者:齋藤大輔;渡部晋治;中村篤;峯松信明
- 通讯作者:峯松信明
Improved generation of speech from its abstract and structural representation
根据抽象和结构表示改进语音生成
- DOI:
- 发表时间:2010
- 期刊:
- 影响因子:0
- 作者:N.Minematsu;D.Saito;K.Hirose
- 通讯作者:K.Hirose
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
齋藤 大輔其他文献
自閉症スペクトラム障害者における扁桃体の安静時脳活動
自闭症谱系障碍患者杏仁核的静息大脑活动
- DOI:
- 发表时间:
2014 - 期刊:
- 影响因子:0
- 作者:
丁 ミンヨン;齋藤 大輔;石飛 信;守田 知代;猪原 敬介;佐々木 章宏;新井 清義;升谷 泰裕;藤岡 徹;岡本 悠子;棟居 俊夫;友田 明美;定藤 規弘;岡沢 秀彦;飯高 哲也;和田 有司;小坂 浩隆 - 通讯作者:
小坂 浩隆
臨床と研究の融合 脳科学的視点から子どもの発達を考える
临床实践与研究的融合:从神经科学的角度考虑儿童发展
- DOI:
- 发表时间:
2022 - 期刊:
- 影响因子:0
- 作者:
齋藤 大輔;滝口 慎一郎;水島 栄 - 通讯作者:
水島 栄
海馬歯状回におけるパターン分離による活動と主観的な気分との関係:機能的 MRI 研究
海马齿状回模式分离活动与主观情绪之间的关系:功能性 MRI 研究
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
藤井 猛;齋藤 大輔;谷中 久和;小坂 浩隆;及川 広志;岡沢 秀彦 - 通讯作者:
岡沢 秀彦
発達障害の先端的研究-子どものこころのセンターの取り組み
发育障碍的前沿研究 - 儿童心理中心的倡议
- DOI:
- 发表时间:
2015 - 期刊:
- 影响因子:0
- 作者:
齋藤 大輔;鈴木 勝昭;菊知 充;下野 九理子;中里 道子;谷池 雅子;友田 明美 - 通讯作者:
友田 明美
齋藤 大輔的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('齋藤 大輔', 18)}}的其他基金
若年層を対象としたAI利活用教育の評価手法の構築に関する研究
针对青少年的人工智能应用教育评价方法构建研究
- 批准号:
24K16764 - 财政年份:2024
- 资助金额:
$ 0.9万 - 项目类别:
Grant-in-Aid for Early-Career Scientists
ビタミンB2を用いた生体組織の血流診断法の開発
开发利用维生素B2的活体组织血流诊断方法
- 批准号:
22K08995 - 财政年份:2022
- 资助金额:
$ 0.9万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
骨質マーカーによる進行性下顎頭吸収発症リスク評価法の確立
利用骨质量标志物建立下颌进行性吸收风险评估方法
- 批准号:
19K19190 - 财政年份:2019
- 资助金额:
$ 0.9万 - 项目类别:
Grant-in-Aid for Early-Career Scientists
社会的相互作用や生活環境が、子どもの認知機能や社会能力に与える影響
社会交往和生活环境对儿童认知功能和社交能力的影响
- 批准号:
19K02611 - 财政年份:2019
- 资助金额:
$ 0.9万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
児童を対象としたプログラミングを活用した教育が与える能力の分析と評価
儿童编程教育能力的分析与评价
- 批准号:
19K14328 - 财政年份:2019
- 资助金额:
$ 0.9万 - 项目类别:
Grant-in-Aid for Early-Career Scientists
相似海外基金
Spoken Language Technology for Online Communication Between Normal-Hearing and Hearing-Impaired People
听力正常者与听力障碍者在线交流的口语技术
- 批准号:
23H00995 - 财政年份:2023
- 资助金额:
$ 0.9万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
深層エネルギーベースモデルによる創造的声質変換の研究
使用深度能量模型进行创造性语音质量转换的研究
- 批准号:
23K11161 - 财政年份:2023
- 资助金额:
$ 0.9万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Examining the Effects of Environmental and Climate Change on Ecological Quality in Long Island Sound Using the Geohistorical Record
利用地史记录检验环境和气候变化对长岛海峡生态质量的影响
- 批准号:
567972-2022 - 财政年份:2022
- 资助金额:
$ 0.9万 - 项目类别:
Postgraduate Scholarships - Doctoral
感情表現が精緻に制御された音声刺激による認知症者の感情理解機能の解明
利用语音刺激和精确控制的情绪表达来阐明痴呆症患者的情绪理解功能
- 批准号:
22K11343 - 财政年份:2022
- 资助金额:
$ 0.9万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Mindfulness-Based Stress Reduction: An Implementation Science-Informed Systematic Review and Meta-Analysis
基于正念的减压:基于科学的实施系统回顾和荟萃分析
- 批准号:
10614500 - 财政年份:2022
- 资助金额:
$ 0.9万 - 项目类别: