EAGER: Creating Speech Synthesizers for Low Resource Languages
EAGER:为低资源语言创建语音合成器
基本信息
- 批准号:1548092
- 负责人:
- 金额:$ 15万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Standard Grant
- 财政年份:2015
- 资助国家:美国
- 起止时间:2015-09-01 至 2018-08-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
Recent advances in speech technology have resulted in wide use of Spoken Dialogue Systems (SDS) such as Siri (iPhone) and Voice Search (Android). These systems support major improvements in information access by voice for High Resource Languages (HRLS) such as English, French, Mandarin, Japanese, and Spanish. For these HRLs, researchers have built dictionaries, parsers, part-of-speech taggers, language models, search engines, and machine translation engines to support speech technologies. However, there are ~6500 world languages, including Tagalog, Tamil, Swahili, Vietnamese and Pashto, many of which are spoken by millions of people, but which do not enjoy the computational resources necessary to build SDS. These are termed Low Resource Languages (LRLs). Speakers of LRLs do not enjoy the same communication and search capabilities speakers of HRLs do. In particular, there is little research and few resources supporting the development of Text-to-Speech Synthesis (TTS) systems to produce Siri-like speech for SDS in these languages.New paradigms for TTS synthesis are now being developed which make it theoretically possible to build systems quickly and cheaply without recording large, special-purpose speech corpora using data recorded for other purposes such as training speech recognizers. This EArly Grant for Exploratory Research investigates the use of these techniques to produce TTS systems for LRL. Three major problems will be explored: 1) Can one develop automatic techniques to filter found data (removing data that is too loud, too noisy or disfluent, for example) to obtain intelligible and natural-sounding results? 2) Can one obtain pronunciation dictionaries from online sources that, with crowd-sourced validation, suffice to generate intelligible and natural speech? 3) Can one use clustering techniques on found data to identify pitch contours that can be crowd-sourced to identify meanings such as question vs. statement contours without prior knowledge of a language's phonology? These methods are tested on two languages: Standard American English, to develop the techniques rapidly, and a language similar in writing system and phonology, Lithuanian, to evaluate on an initial LRL. Both evaluations are made in terms of intelligibility and naturalness using crowd-sourcing techniques with native speakers of each language. The ultimate goal of this exploratory work will be to test these techniques on a broad variety of LRLs which have been collected for purposes of developing speech recognizers.
语音技术的最新进展导致了语音对话系统 (SDS) 的广泛使用,例如 Siri (iPhone) 和语音搜索 (Android)。 这些系统支持通过语音对英语、法语、普通话、日语和西班牙语等高资源语言 (HRLS) 进行信息访问的重大改进。 对于这些 HRL,研究人员构建了词典、解析器、词性标注器、语言模型、搜索引擎和机器翻译引擎来支持语音技术。 然而,世界上有约 6500 种语言,包括他加禄语、泰米尔语、斯瓦希里语、越南语和普什图语,其中许多语言有数百万人使用,但它们不具备构建 SDS 所需的计算资源。这些被称为低资源语言(LRL)。 LRL 的发言者不享有与 HRL 的发言者相同的通信和搜索功能。 特别是,支持开发文本转语音合成 (TTS) 系统以在这些语言中为 SDS 生成类似 Siri 的语音的研究和资源很少。目前正在开发 TTS 合成的新范例,这在理论上使其成为可能快速、廉价地构建系统,而无需使用为其他目的(例如训练语音识别器)记录的数据来记录大型专用语音语料库。 这项早期探索性研究资助调查了如何使用这些技术来为 LRL 生成 TTS 系统。 将探讨三个主要问题:1)是否可以开发自动技术来过滤找到的数据(例如,删除太大声、太嘈杂或不流畅的数据)以获得可理解且听起来自然的结果? 2)人们能否从在线资源获得发音词典,并通过众包验证足以生成可理解且自然的语音? 3) 人们是否可以对找到的数据使用聚类技术来识别音调轮廓,这些音调轮廓可以通过众包来识别含义,例如问题与陈述轮廓,而无需先了解一种语言的音韵学? 这些方法在两种语言上进行了测试:标准美式英语,以快速开发技术;以及一种在书写系统和音韵学方面类似的语言,立陶宛语,以评估初始 LRL。这两项评估都是通过众包技术与每种语言的母语人士的可理解性和自然度进行的。 这项探索性工作的最终目标是在各种 LRL 上测试这些技术,这些 LRL 是为了开发语音识别器而收集的。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Julia Hirschberg其他文献
Classification of discourse functions of affirmative words in spoken dialogue
口语对话中肯定词的话语功能分类
- DOI:
10.21437/interspeech.2007-450 - 发表时间:
2007 - 期刊:
- 影响因子:0
- 作者:
Agustin Gravano;S. Benus;Julia Hirschberg;Shira Mitchell;Ilia Vovsha - 通讯作者:
Ilia Vovsha
Varying input segmentation for story boundary detection in English, Arabic and Mandarin broadcast news
用于英语、阿拉伯语和普通话广播新闻中故事边界检测的不同输入分段
- DOI:
10.21437/interspeech.2007-687 - 发表时间:
2024-09-14 - 期刊:
- 影响因子:0
- 作者:
A. Rosenberg;Mehrbod Sharifi;Julia Hirschberg - 通讯作者:
Julia Hirschberg
Characterization of the Biomedical Query Mediation Process
生物医学查询调解过程的表征
- DOI:
- 发表时间:
2013-03-18 - 期刊:
- 影响因子:0
- 作者:
G. Hruby;M. Bol;J. Cimino;Junfeng Gao;A. Wilcox;Julia Hirschberg;C. Weng - 通讯作者:
C. Weng
Automatic Detection and Prediction of Psychiatric Hospitalizations From Social Media Posts
根据社交媒体帖子自动检测和预测精神病住院情况
- DOI:
10.18653/v1/2021.clpsych-1.14 - 发表时间:
2021-06-01 - 期刊:
- 影响因子:0
- 作者:
Zhengping Jiang;Jonathan Zomick;Sarah Ita Levitan;M. Serper;Julia Hirschberg - 通讯作者:
Julia Hirschberg
Spatial Relations in Text-to-Scene Conversion
文本到场景转换中的空间关系
- DOI:
10.7916/d8902c78 - 发表时间:
2024-09-14 - 期刊:
- 影响因子:0
- 作者:
R. Sproat;Robert Coyne;Julia Hirschberg - 通讯作者:
Julia Hirschberg
Julia Hirschberg的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Julia Hirschberg', 18)}}的其他基金
EAGER: Identifying and Producing Code-Switching in Languages from Spoken, Lexical and Socio-linguistic Features
EAGER:根据口语、词汇和社会语言特征识别和产生语言中的语码转换
- 批准号:
2327564 - 财政年份:2023
- 资助金额:
$ 15万 - 项目类别:
Standard Grant
EAGER: Identifying and Producing Code-Switching in Languages from Spoken, Lexical and Socio-linguistic Features
EAGER:根据口语、词汇和社会语言特征识别和产生语言中的语码转换
- 批准号:
2327564 - 财政年份:2023
- 资助金额:
$ 15万 - 项目类别:
Standard Grant
RI: Small: Creating Text-to-Speech Synthesis for Low Resource Languages
RI:小型:为低资源语言创建文本到语音合成
- 批准号:
1717680 - 财政年份:2017
- 资助金额:
$ 15万 - 项目类别:
Standard Grant
Using Computational Tools to Facilitate Corpus Collection and Language Use in Arrernte (aer)
使用计算工具促进 Arrernte (aer) 中的语料库收集和语言使用
- 批准号:
1160700 - 财政年份:2012
- 资助金额:
$ 15万 - 项目类别:
Standard Grant
Collaborative Research: CI-P: Reciprosody - A Repository for Prosodically Annotated Material
合作研究:CI-P:Reciprosody - 韵律注释材料存储库
- 批准号:
1205450 - 财政年份:2012
- 资助金额:
$ 15万 - 项目类别:
Standard Grant
IGERT: From Data to Solutions: A New PhD Program in Transformational Data & Information Sciences Research and Innovation
IGERT:从数据到解决方案:一个新的转型数据博士项目
- 批准号:
1144854 - 财政年份:2012
- 资助金额:
$ 15万 - 项目类别:
Continuing Grant
EAGER: Using Social Media and Crowdsourcing to Create a New Affect Dictionary
EAGER:利用社交媒体和众包创建新的情感词典
- 批准号:
1145505 - 财政年份:2011
- 资助金额:
$ 15万 - 项目类别:
Standard Grant
CI-P: Collaborative Research: Summarizing Opinion and Speaker Attitude in Speech
CI-P:协作研究:总结观点和演讲者在演讲中的态度
- 批准号:
1059260 - 财政年份:2011
- 资助金额:
$ 15万 - 项目类别:
Standard Grant
RI: Medium: Collaborative Research: From Text to Pictures
RI:媒介:协作研究:从文本到图片
- 批准号:
0904361 - 财政年份:2009
- 资助金额:
$ 15万 - 项目类别:
Standard Grant
RI-Medium: Collaborative: Corpus-Based Studies of Lexical, Acoustic-Prosodic, and Discourse Entrainment in Spoken Dialogue
RI-Medium:协作:基于语料库的口语对话中的词汇、声学韵律和话语夹带研究
- 批准号:
0803148 - 财政年份:2008
- 资助金额:
$ 15万 - 项目类别:
Standard Grant
相似国自然基金
不同类型社会网络关系对员工工作意义感和创造力的影响研究
- 批准号:72302112
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
关联学习中群体知识创造的多层时序网络机理及干预机制研究
- 批准号:62377041
- 批准年份:2023
- 资助金额:49 万元
- 项目类别:面上项目
企业家创造内容的形成、分享与扩散机制研究:拟剧论与边界论的双重视角
- 批准号:72372043
- 批准年份:2023
- 资助金额:41 万元
- 项目类别:面上项目
基于专利权利要求技术方案创造性的技术创新水平测度研究
- 批准号:72374176
- 批准年份:2023
- 资助金额:40 万元
- 项目类别:面上项目
知识建构社区中基于多模领域概念的知识创造路径识别与演化规律研究
- 批准号:62307026
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
相似海外基金
CCRI: Medium: MSP-Podcast: Creating The Largest Speech Emotional Database By Leveraging Existing Naturalistic Recordings
CCRI:媒介:MSP-Podcast:利用现有的自然主义录音创建最大的语音情感数据库
- 批准号:
2016719 - 财政年份:2020
- 资助金额:
$ 15万 - 项目类别:
Standard Grant
CCRI: Medium: MSP-Podcast: Creating The Largest Speech Emotional Database By Leveraging Existing Naturalistic Recordings
CCRI:媒介:MSP-Podcast:利用现有的自然主义录音创建最大的语音情感数据库
- 批准号:
2016719 - 财政年份:2020
- 资助金额:
$ 15万 - 项目类别:
Standard Grant
Speech Intelligibility Model in Lecture Videos for Flipped Classrooms and Support for Creating Lecture Videos
翻转课堂讲座视频中的语音清晰度模型及对创建讲座视频的支持
- 批准号:
19K12266 - 财政年份:2019
- 资助金额:
$ 15万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Creating effective Speech and Language Therapy provision to support autistic children from multilingual families
提供有效的言语和语言治疗服务,以支持来自多语言家庭的自闭症儿童
- 批准号:
2099737 - 财政年份:2018
- 资助金额:
$ 15万 - 项目类别:
Studentship
CRI: CI-P: Creating the Largest Speech Emotional Database by Leveraging Existing Naturalistic Recordings
CRI:CI-P:利用现有的自然录音创建最大的语音情感数据库
- 批准号:
1823166 - 财政年份:2018
- 资助金额:
$ 15万 - 项目类别:
Standard Grant