RI: Small: Creating Text-to-Speech Synthesis for Low Resource Languages

RI:小型:为低资源语言创建文本到语音合成

基本信息

  • 批准号:
    1717680
  • 负责人:
  • 金额:
    $ 50万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2017
  • 资助国家:
    美国
  • 起止时间:
    2017-09-01 至 2021-08-31
  • 项目状态:
    已结题

项目摘要

Recent advances in speech technology have resulted in wide use of Spoken Dialogue Systems (SDS) such as Siri (iPhone) and Google Assistant (Android). These systems support major improvements in information access by voice for High Resource Languages (HRLs) such as English, French, Mandarin, Japanese, and Spanish. For these languages, researchers have built dictionaries, parsers, part-of-speech taggers, language models, search engines, and machine translation engines to support speech technologies. However, there are ~6500 world languages, including Tagalog, Tamil, Swahili, Vietnamese and Pashto, many of which are spoken by millions of people, but which do not enjoy the computational resources necessary to build SDS. These are termed Low Resource Languages (LRLs). Speakers of LRLs do not benefit from the same communication and search capabilities speakers of HRLs do. In particular, there is little research and few resources supporting the development of Text-to-Speech Synthesis (TTS) systems to produce Siri-like speech for SDS in these languages. Furthermore, both commercial and research TTS systems also require large amounts of carefully recorded, single-speaker speech data, creating another major (and expensive) barrier to TTS development for LRLs. This work will create TTS systems in LRLs and, in the process, create and make available tools for others to create their own systems using "found" data - data recorded for other purposes or available on the web.New paradigms for TTS synthesis (parametric synthesis and the use of Deep Neural Nets) are now being developed which make it theoretically possible to build systems quickly and cheaply without recording large, special-purpose speech corpora, instead using data recorded for other purposes such as training speech recognizers. This work will investigate the use these techniques to produce TTS systems for LRL. Two major problems will be explored: 1) What are the best techniques to filter found data (removing data that is too loud, too noisy or disfluent, for example) to obtain intelligible and natural-sounding results? 2) Can basic prosodic features of LRLs such as phrasing and emphasis be identified, using crowdsourcing and tools developed for HRLs? Pilot studies on English have revealed that more natural and intelligible voices can be created by using subsets of the data selected on features such as pitch variation and level of articulation. These methods will be tested on LRLs such as Turkish, Amharic, and Telugu. Evaluations will be made in terms of intelligibility and naturalness both automatically and using crowdsourcing techniques with native speakers of each language. The ultimate goal of this exploratory work will be to test these techniques on a broad variety of LRLs which have been collected for purposes of developing speech recognizers.
语音技术的最新进展导致了语音对话系统 (SDS) 的广泛使用,例如 Siri (iPhone) 和 Google Assistant (Android)。 这些系统支持通过语音访问英语、法语、普通话、日语和西班牙语等高资源语言 (HRL) 的信息访问的重大改进。 对于这些语言,研究人员构建了词典、解析器、词性标注器、语言模型、搜索引擎和机器翻译引擎来支持语音技术。 然而,世界上有约 6500 种语言,包括他加禄语、泰米尔语、斯瓦希里语、越南语和普什图语,其中许多语言有数百万人使用,但它们不具备构建 SDS 所需的计算资源。这些被称为低资源语言(LRL)。 LRL 的发言者无法从 HRL 的发言者所享有的相同通信和搜索功能中受益。 特别是,支持开发文本转语音合成 (TTS) 系统以在这些语言中为 SDS 生成类似 Siri 的语音的研究和资源很少。 此外,商业和研究 TTS 系统还需要大量仔细记录的单扬声器语音数据,这为 LRL 的 TTS 开发造成了另一个主要(且昂贵)障碍。 这项工作将在 LRL 中创建 TTS 系统,并在此过程中为其他人创建并提供可用的工具,以便使用“找到的”数据(为其他目的记录的数据或在网络上提供的数据)创建自己的系统。 TTS 合成的新范例(参数化)目前正在开发中,这使得在理论上可以快速且廉价地构建系统,而无需记录大型的专用语音语料库,而是使用为其他目的(例如训练语音识别器)记录的数据。 这项工作将研究如何使用这些技术来为 LRL 制作 TTS 系统。 将探讨两个主要问题:1)过滤找到的数据(例如,删除太大声、太嘈杂或不流畅的数据)以获得可理解且听起来自然的结果的最佳技术是什么? 2) 能否使用众包和为 HRL 开发的工具来识别 LRL 的基本韵律特征,例如措辞和强调? 对英语的试点研究表明,通过使用根据音调变化和发音水平等特征选择的数据子集,可以创建更自然、更容易理解的声音。 这些方法将在土耳其语、阿姆哈拉语和泰卢固语等 LRL 上进行测试。 将自动并使用众包技术与每种语言的母语人士一起对清晰度和自然度进行评估。 这项探索性工作的最终目标是在各种 LRL 上测试这些技术,这些 LRL 是为了开发语音识别器而收集的。

项目成果

期刊论文数量(8)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Characteristics of Text-to-Speech and Other Corpora
文本转语音和其他语料库的特征
  • DOI:
    10.21437/speechprosody.2018-140
  • 发表时间:
    2018-06-13
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Erica Cooper;E. Li;Julia Hirschberg
  • 通讯作者:
    Julia Hirschberg
Adaptation and Frontend Features to Improve Naturalness in Found-Data Synthesis
适应和前端功能可提高发现数据合成的自然度
  • DOI:
    10.21437/speechprosody.2018-160
  • 发表时间:
    2018-06
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Cooper, Erica;Hirschberg, Julia
  • 通讯作者:
    Hirschberg, Julia
Subset Selection, Adaptation, Gemination and Prosody Prediction for Amharic Text-to-Speech Synthesis
阿姆哈拉语文本转语音合成的子集选择、适应、双生和韵律预测
  • DOI:
    10.21437/ssw.2019-37
  • 发表时间:
    2019-09
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Tesfaye Biru, Elshadai;Tofik Mohammed, Yishak;Tofu, David;Cooper, Erica;Hirschberg, Julia
  • 通讯作者:
    Hirschberg, Julia
Utterance Selection for Optimizing Intelligibility of TTS Voices Trained on ASR Data
用于优化基于 ASR 数据训练的 TTS 语音清晰度的话语选择
  • DOI:
    doi: 10.21437/interspeech.2017-465
  • 发表时间:
    2017-01
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Erica Cooper; Xinyue Wang
  • 通讯作者:
    Xinyue Wang
Adaptation and Frontend Features to Improve Naturalness in Found-Data Synthesis
适应和前端功能可提高发现数据合成的自然度
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Julia Hirschberg其他文献

Classification of discourse functions of affirmative words in spoken dialogue
口语对话中肯定词的话语功能分类
  • DOI:
    10.21437/interspeech.2007-450
  • 发表时间:
    2007
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Agustin Gravano;S. Benus;Julia Hirschberg;Shira Mitchell;Ilia Vovsha
  • 通讯作者:
    Ilia Vovsha
Varying input segmentation for story boundary detection in English, Arabic and Mandarin broadcast news
用于英语、阿拉伯语和普通话广播新闻中故事边界检测的不同输入分段
  • DOI:
    10.21437/interspeech.2007-687
  • 发表时间:
    2024-09-14
  • 期刊:
  • 影响因子:
    0
  • 作者:
    A. Rosenberg;Mehrbod Sharifi;Julia Hirschberg
  • 通讯作者:
    Julia Hirschberg
Characterization of the Biomedical Query Mediation Process
生物医学查询调解过程的表征
Automatic Detection and Prediction of Psychiatric Hospitalizations From Social Media Posts
根据社交媒体帖子自动检测和预测精神病住院情况
Spatial Relations in Text-to-Scene Conversion
文本到场景转换中的空间关系
  • DOI:
    10.7916/d8902c78
  • 发表时间:
    2024-09-14
  • 期刊:
  • 影响因子:
    0
  • 作者:
    R. Sproat;Robert Coyne;Julia Hirschberg
  • 通讯作者:
    Julia Hirschberg

Julia Hirschberg的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Julia Hirschberg', 18)}}的其他基金

EAGER: Identifying and Producing Code-Switching in Languages from Spoken, Lexical and Socio-linguistic Features
EAGER:根据口语、词汇和社会语言特征识别和产生语言中的语码转换
  • 批准号:
    2327564
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
EAGER: Identifying and Producing Code-Switching in Languages from Spoken, Lexical and Socio-linguistic Features
EAGER:根据口语、词汇和社会语言特征识别和产生语言中的语码转换
  • 批准号:
    2327564
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
EAGER: Creating Speech Synthesizers for Low Resource Languages
EAGER:为低资源语言创建语音合成器
  • 批准号:
    1548092
  • 财政年份:
    2015
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
Using Computational Tools to Facilitate Corpus Collection and Language Use in Arrernte (aer)
使用计算工具促进 Arrernte (aer) 中的语料库收集和语言使用
  • 批准号:
    1160700
  • 财政年份:
    2012
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
IGERT: From Data to Solutions: A New PhD Program in Transformational Data & Information Sciences Research and Innovation
IGERT:从数据到解决方案:一个新的转型数据博士项目
  • 批准号:
    1144854
  • 财政年份:
    2012
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant
Collaborative Research: CI-P: Reciprosody - A Repository for Prosodically Annotated Material
合作研究:CI-P:Reciprosody - 韵律注释材料存储库
  • 批准号:
    1205450
  • 财政年份:
    2012
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
EAGER: Using Social Media and Crowdsourcing to Create a New Affect Dictionary
EAGER:利用社交媒体和众包创建新的情感词典
  • 批准号:
    1145505
  • 财政年份:
    2011
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
CI-P: Collaborative Research: Summarizing Opinion and Speaker Attitude in Speech
CI-P:协作研究:总结观点和演讲者在演讲中的态度
  • 批准号:
    1059260
  • 财政年份:
    2011
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
RI: Medium: Collaborative Research: From Text to Pictures
RI:媒介:协作研究:从文本到图片
  • 批准号:
    0904361
  • 财政年份:
    2009
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
RI-Medium: Collaborative: Corpus-Based Studies of Lexical, Acoustic-Prosodic, and Discourse Entrainment in Spoken Dialogue
RI-Medium:协作:基于语料库的口语对话中的词汇、声学韵律和话语夹带研究
  • 批准号:
    0803148
  • 财政年份:
    2008
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant

相似国自然基金

小分子代谢物Catechin与TRPV1相互作用激活外周感觉神经元介导尿毒症瘙痒的机制研究
  • 批准号:
    82371229
  • 批准年份:
    2023
  • 资助金额:
    49 万元
  • 项目类别:
    面上项目
DHEA抑制小胶质细胞Fis1乳酸化修饰减轻POCD的机制
  • 批准号:
    82301369
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
SETDB1调控小胶质细胞功能及参与阿尔茨海默病发病机制的研究
  • 批准号:
    82371419
  • 批准年份:
    2023
  • 资助金额:
    49 万元
  • 项目类别:
    面上项目
PTBP1驱动H4K12la/BRD4/HIF1α复合物-PKM2正反馈环路促进非小细胞肺癌糖代谢重编程的机制研究及治疗方案探索
  • 批准号:
    82303616
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

DESIGN: Creating cultural change in small to medium-sized professional societies: a training network approach
设计:在中小型专业团体中创造文化变革:培训网络方法
  • 批准号:
    2334964
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
Collaborative Research: HCC: Small: Toolkits for Creating Interaction-powered Energy-aware Computing Systems
合作研究:HCC:小型:用于创建交互驱动的能源感知计算系统的工具包
  • 批准号:
    2228982
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
Collaborative Research: HCC: Small: Toolkits for Creating Interaction-powered Energy-aware Computing Systems
合作研究:HCC:小型:用于创建交互驱动的能源感知计算系统的工具包
  • 批准号:
    2228983
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
Collaborative Research: CNS Core: Small: Creating An Extensible Internet Through Interposition
合作研究:CNS核心:小:通过介入创建可扩展的互联网
  • 批准号:
    2242503
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
Creating an sxRNA Organoid Product for Advancing the Study, Prevention and Treatment of Alzheimer's disease (AD) and Alzheimer's-disease-related dementias (ADRD)
创建 sxRNA 类器官产品以推进阿尔茨海默病 (AD) 和阿尔茨海默病相关痴呆 (ADRD) 的研究、预防和治疗
  • 批准号:
    10765970
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了