言語情報とパラ言語情報を統合した音声の構造的表象の提案とその音声合成への応用

整合语言和副语言信息的语音结构表示的提出及其在语音合成中的应用

基本信息

  • 批准号:
    19650036
  • 负责人:
  • 金额:
    $ 2.11万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Exploratory Research
  • 财政年份:
    2007
  • 资助国家:
    日本
  • 起止时间:
    2007 至 2008
  • 项目状态:
    已结题

项目摘要

音声が運ぶ情報は大きく,言語的情報,パラ言語的情報,非言語的情報に分かれる。我々は音声から非言語的情報に相当する音響特徴量のみを分離する方法を提案している。年齢・性別による音声の音響的変形,収録機器・伝送機器による音声の音響的変形はいずれも,静的な空間写像として数学的にモデル化できる。よって,写像不変量でもって音声を表象・モデル化することで,静的な変形(変換)に不変な音声情報処理が可能となる。我々は分布間の距離尺度であるf-divergenceが如何なる変換に対しても不変であることを証明しており,発声中の全ての音響事象を分布として捉え,任意の二分布間(事象間)距離を計測し,距離行列として音声を(話者不変的に)表象する手法を提案している。距離行列は一つの幾何学的形態を規定するため,これを音声の構造的表象と呼んでいる。非言語情報がそぎ落とされるということは,言語情報とパラ言語情報のみが表象された音声表象であることを意味する。本研究では,この構造表象に対して,非言語的情報である話者の性別,年齢,体格(即ち声道形状)を戻すことで音声を生成する枠組みを検討した。即ち,言語情報,パラ言語情報は構造として与えられ,その構造を音に変換する声道の長さや形状の情報(非言語的情報)を付与することで音に変換する枠組みである。具体的には,幾つかの既に実現された音事象を初期条件として与え,構造的表象を制約条件としてその後の音事象を次々と音響空間内に定位する方法を採択した。この場合,定位済みの事象群をn個とすると,このn個の事象を中心とする超楕円を描き,n個の超楕円の交点が次に生成すべき音の定位場所,となる。この探索問題を計算機上に実装し,また,いくつかの高速化アルゴリズムを検討することで,現実的な計算量で構造からの音声生成を可能にした。この音声生成方式は,言語情報+パラ言語情報が混在した音声表象(構造的表象)を出発点として音を導出するという点が従来の音声生成方式とは大きく異なる。
声音所携带的信息很大,分为语言信息,旁语信息和非语言信息。我们提出了一种方法,仅将与语音信息相对应的声学特征分开。根据年龄和性别的声音转换,以及由于记录和传输设备而引起的语音的声学转换都可以数学地建模为静态空间图。因此,通过使用映射不变式表示和建模语音,可以在静态转换(转换)中处理语音信息不变。我们已经证明,F-Divergence(分布之间的距离度量)对于任何转换都是不变的,并提出了一种捕获语音中所有声学事件作为分布的方法,测量任何两个分布(事件间)距离,并表示语音(说话者不变)为距离矩阵。距离矩阵定义了几何形式,称为语音的结构表示。非语言信息被删除的事实意味着只有语言和副语言信息是代表性的语音表示。在这项研究中,我们研究了一个框架来通过恢复说话者的性别,年龄和体质(即声音形状),该框架是这种结构表达的非语言信息。也就是说,语言信息和副语言信息是作为结构提供的,并且是通过分配声音长度和形状的信息(非语言信息)将结构转换为声音的框架。具体而言,采用了一种方法,其中给出了几个已经实现的声音事件作为初始条件,随后的声音事件在声学空间中又一个接一个地定位,结构表示受到限制。在这种情况下,如果n事件是局部的,则绘制围绕这些n事件的hypellipse,而n个hyperellipses的相交将成为接​​下来要生成的声音的本地化位置。该搜索问题是在计算机上实现的,并通过检查一些加速算法,可以从具有现实计算复杂性的结构中生成语音。这种语音生成方法与常规语音生成方法有很大不同,因为它从声音表示(结构表示)中得出了声音,该方法包含语言信息和副语言信息作为起点。

项目成果

期刊论文数量(17)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

峯松 信明其他文献

生成過程モデルに基づく母語話者と中国語話者の日本語朗読音声の基本周波数パターン
基于生成过程模型的母语者和汉语者日语阅读语音的基本频率模式
  • DOI:
  • 发表时间:
    2007
  • 期刊:
  • 影响因子:
    0
  • 作者:
    平野 宏子;広瀬 啓吉;河合 剛;顧文 涛;峯松 信明
  • 通讯作者:
    峯松 信明
日本語上級中国人学習者と日本語母語話者教師の真偽疑問文と疑問詞疑問文の産出
日语高级汉语学习者及日语母语教师真/假疑问句及疑问疑问句的制作
Evaluation of the Prosodic Naturalness of Japanese Learners’ Utterances after Practicing with OJAD Suzuki-kun
与 OJAD Suzuki-kun 一起练习后日语学习者言语韵律自然度的评估
Effects of English Shadowing Training Using Unlearned Passages on Listening and Speaking Skills
使用未学过的段落进行英语影子训练对听力和口语技能的影响
  • DOI:
    10.24539/let.59.0_77
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    中西 のりこ;峯松 信明;椢原 卓弥
  • 通讯作者:
    椢原 卓弥
孤立音正[あ]を聞いて/あ/と同定する能力は音声言語に必要か?
听到孤立的正确声音 [a] 并将其识别为 /a/ 的能力对于口语来说是必要的吗?
  • DOI:
  • 发表时间:
    2007
  • 期刊:
  • 影响因子:
    0
  • 作者:
    峯松 信明;他
  • 通讯作者:

峯松 信明的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('峯松 信明', 18)}}的其他基金

Measurement of L2 pronunciation deviation and L2 listening disfluency and its application to prosody training for smooth international communication
二语发音偏差和二语听力不流利度测量及其在国际交流顺畅韵律训练中的应用
  • 批准号:
    23K17459
  • 财政年份:
    2023
  • 资助金额:
    $ 2.11万
  • 项目类别:
    Grant-in-Aid for Challenging Research (Pioneering)
Measurement and modeling of cognitive breakdown and their use to enhance cognitive robustness for international oral communication
认知崩溃的测量和建模及其用于增强国际口头交流认知稳健性的用途
  • 批准号:
    22H00527
  • 财政年份:
    2022
  • 资助金额:
    $ 2.11万
  • 项目类别:
    Grant-in-Aid for Scientific Research (A)
Technically-enhanced high variability phonetic training and its effective application to English listening training for Japanese learners
技术强化的高变异性语音训练及其在日语学习者英语听力训练中的有效应用
  • 批准号:
    18F18724
  • 财政年份:
    2018
  • 资助金额:
    $ 2.11万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
構造不変の定理に基づく聴覚・視覚・身体メディアの普遍的表象に関する基礎研究
基于结构不变性定理的听觉、视觉和物理媒体普遍表征的基础研究
  • 批准号:
    07F07078
  • 财政年份:
    2007
  • 资助金额:
    $ 2.11万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
構造不変の定理に基づく音声アフォーダンスの提案とそれに立脚した音声認識系の構築
提出基于结构不变性定理的语音可供性并构建基于其的语音识别系统
  • 批准号:
    19024023
  • 财政年份:
    2007
  • 资助金额:
    $ 2.11万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
構造不変の定理に基づく音声アフォーダンスの提案とそれに立脚した音声認識系の構築
提出基于结构不变性定理的语音可供性并构建基于其的语音识别系统
  • 批准号:
    18049018
  • 财政年份:
    2006
  • 资助金额:
    $ 2.11万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
人間による音声情報処理過程の分析とそれを応用した音声対話インターフェイスの構築
分析人类语音信息处理过程并利用该分析构建语音对话界面
  • 批准号:
    16016219
  • 财政年份:
    2004
  • 资助金额:
    $ 2.11万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
発音の明瞭性に着眼した発音構造の包括的記述とその語学学習への応用に関する研究
以发音清晰度为核心的发音结构综合描述及其在语言学习中的应用研究
  • 批准号:
    15652033
  • 财政年份:
    2003
  • 资助金额:
    $ 2.11万
  • 项目类别:
    Grant-in-Aid for Exploratory Research
人間による音声情報処理過程の分析とそれを応用した音声対話インターフェイスの構築
分析人类语音信息处理过程并利用该分析构建语音对话界面
  • 批准号:
    15017225
  • 财政年份:
    2003
  • 资助金额:
    $ 2.11万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
人間による音声言語処理過程の分析とそれに立脚した音声対話システムの構築
人类口语处理过程分析及基于其的口语对话系统构建
  • 批准号:
    14019021
  • 财政年份:
    2002
  • 资助金额:
    $ 2.11万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas

相似海外基金

Study of the splitting-*-homomorphisms by ordered zero completely positive maps and the heredity of invariant properties of C*-algebras
有序零完全正映射的分裂-*-同态及C*-代数不变性质的遗传性研究
  • 批准号:
    20K03644
  • 财政年份:
    2020
  • 资助金额:
    $ 2.11万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Development of para-linguistic information processing systems based on Gestalt perception and understanding of behaviors of individuals with developmental disorder
基于格式塔感知和对发育障碍个体行为的理解的副语言信息处理系统的开发
  • 批准号:
    23650133
  • 财政年份:
    2011
  • 资助金额:
    $ 2.11万
  • 项目类别:
    Grant-in-Aid for Challenging Exploratory Research
Technical development of environments for learning and teaching foreign languages by using structural representation of pronunciation
利用发音结构表征进行外语学习和教学环境的技术开发
  • 批准号:
    20300265
  • 财政年份:
    2008
  • 资助金额:
    $ 2.11万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
構造不変の定理に基づく聴覚・視覚・身体メディアの普遍的表象に関する基礎研究
基于结构不变性定理的听觉、视觉和物理媒体普遍表征的基础研究
  • 批准号:
    07F07078
  • 财政年份:
    2007
  • 资助金额:
    $ 2.11万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
構造不変の定理に基づく音声アフォーダンスの提案とそれに立脚した音声認識系の構築
提出基于结构不变性定理的语音可供性并构建基于其的语音识别系统
  • 批准号:
    19024023
  • 财政年份:
    2007
  • 资助金额:
    $ 2.11万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了