EAGER: Mining a Year of Speech

EAGER:挖掘一年的演讲

基本信息

  • 批准号:
    1048900
  • 负责人:
  • 金额:
    $ 9.99万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2010
  • 资助国家:
    美国
  • 起止时间:
    2010-08-15 至 2012-07-31
  • 项目状态:
    已结题

项目摘要

Technologies for storing and processing vast amounts of text are mature and well-defined. In contrast, technologies for browsing or mining content from large collections of non-textual material, especially audio and video, are less well developed. Large sale data mining on text has helped transform the relevant disciplines; the disciplines dealing with spoken language will reap similar benefits from accessible, searchable, large corpora.This project explores the difficult problem of providing rich, intelligent data mining capabilities for a substantial collection of spoken audio data in American and British English. It applies and extends state-of-the-art techniques to offer sophisticated, rapid and flexible access to a richly annotated corpus of a year of speech (about 9,000 hours, 100 million words, or 2 terabytes), derived from the Linguistic Data Consortium, the British National Corpus, and other existing resources. This is ten times more data than has previously been used by researchers in fields such as phonetics, linguistics, and psychology, and 100 to 1,000 times the amounts that are used in common practice.Speech-to-text alignment and search tools will open a new universe of data to researchers in many fields, from linguistics and phonetics to anthropology, speech communication, oral history, and media studies. Audio-video usage on the internet is large and growing at an extraordinary rate, offering increasingly large amounts of an increasingly large range of material. Reliable automatic annotation, indexing and search of this material will allow researchers to examine the distribution of both form and content across time, space, and social structure.
存储和处理大量文本的技术成熟且定义明确。相比之下,来自大量非文本材料(尤其是音频和视频)的浏览或采矿内容的技术效果不佳。文本上的大型销售数据挖掘有助于改变相关学科;涉及口语的学科将从可访问的,可搜索的大型语料库中获得类似的好处。该项目探讨了为在美国和英国英语中提供丰富的,智能数据挖掘能力的困难问题。 它应用并扩展了最先进的技术,以提供一年的语音(约9,000小时,1亿个单词或2个Terabytes)的丰富注释的语料库,可提供精致,快速,灵活的访问权限,这些语料库源自语言数据联盟,英国国家语料库和其他现有资源。这比以前在语音,语言学和心理学等领域使用的研究人员多了十倍,并且是共同实践中使用的数量的100至1,000倍。Spech-to-toxttext的对齐和搜索工具将向许多领域的研究人员打开新的数据宇宙,从语言学和语音学到人类学,语言学,语言学,语言学,语言,或媒体,或媒体,或媒体和媒体和媒体,或媒体和媒体和媒体和媒体和媒体和媒体。 Internet上的Audio-Video使用情况很大,并且以非凡的速度增长,提供了越来越大的材料范围越来越大。可靠的自动注释,索引和搜索此材料将使研究人员能够在时间,空间和社会结构之间检查形式和内容的分布。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Mark Liberman其他文献

Dimensions of Speech and Language Disturbance in Psychosis and Computational Linguistic Markers
  • DOI:
    10.1016/j.biopsych.2022.02.144
  • 发表时间:
    2022-05-01
  • 期刊:
  • 影响因子:
  • 作者:
    Sunny Tang;Katrin Hänsel;Yan Cong;Sarah Berretta;Sunghye Cho;Amir Nikzad;Aarush Mehta;Sameer Pradhan;James Fiumara;Mark Liberman
  • 通讯作者:
    Mark Liberman
CLiFF Notes: Research in the Language, Information and Computation Laboratory of the University of Pennsylvania
CLiFF笔记:宾夕法尼亚大学语言、信息和计算实验室的研究
  • DOI:
  • 发表时间:
    1995
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Norm Badler;F. B. Baldwin;Nicola J. Bessell;Eric Brill;Sharon Cote;Barbara Di Eugenio;Alexis Dimitriadis;Jon Freeman;Christopher W. Geib;A. Gertner;Daniel Hardt;Michael Hegarty;Shyam Kapur;Jonathan Kaye;Michael H. Kelly;Libby Levison;Mark Liberman;D. R. Mani;Mitch Marcus Michael;B. Moore;Michael Niv;Charles L. Ortiz;Jong Cheol Park;Sandeep Prasada Scott
  • 通讯作者:
    Sandeep Prasada Scott
l / VARIATION IN AMERICAN ENGLISH : A CORPUS
l / 美式英语变体:语料库
  • DOI:
  • 发表时间:
    2012
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Jiahong Yuan;Mark Liberman
  • 通讯作者:
    Mark Liberman
LOOKING BACK, MOVING FORWARD Why underlying representations? 1
回顾过去,展望未来 为什么要使用底层表征?
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Looking Back;Moving Forward;Larry;M. Hyman;Jeffrey Heinz;Sharon Inkelas;Keith Johnson;Mark Liberman
  • 通讯作者:
    Mark Liberman
Automatic phonetic segmentation using boundary models
使用边界模型自动语音分割
  • DOI:
  • 发表时间:
    2013
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Jiahong Yuan;Neville Ryant;Mark Liberman;A. Stolcke;V. Mitra;Wen Wang
  • 通讯作者:
    Wen Wang

Mark Liberman的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Mark Liberman', 18)}}的其他基金

CI-NEW: NIEUW: Novel Incentives and Workflows in Linguistic Data Collection and Annotation
CI-NEW:NIEUW:语言数据收集和注释中的新颖激励措施和工作流程
  • 批准号:
    1730377
  • 财政年份:
    2017
  • 资助金额:
    $ 9.99万
  • 项目类别:
    Standard Grant
Language Preservation 2.0: Crowdsourcing Oral Language Documentation using Mobile Devices
语言保存2.0:使用移动设备众包口语文档
  • 批准号:
    1160639
  • 财政年份:
    2012
  • 资助金额:
    $ 9.99万
  • 项目类别:
    Standard Grant
Prosodic Systems in New Guinea: Integrating computational and typological approaches to linguistic analysis
新几内亚的韵律系统:将计算和类型学方法整合到语言分析中
  • 批准号:
    0951651
  • 财政年份:
    2010
  • 资助金额:
    $ 9.99万
  • 项目类别:
    Standard Grant
Collaborative Research: OLAC: Accessing the World's Language Resources
合作研究:OLAC:访问世界语言资源
  • 批准号:
    0723357
  • 财政年份:
    2007
  • 资助金额:
    $ 9.99万
  • 项目类别:
    Continuing Grant
ITR-SCOTUS: A Resource for Collaborative Research in Speech Technology, Linguistics, Decision Processes and the Law
ITR-SCOTUS:语音技术、语言学、决策过程和法律合作研究的资源
  • 批准号:
    0325739
  • 财政年份:
    2003
  • 资助金额:
    $ 9.99万
  • 项目类别:
    Continuing Grant
Querying Linguistic Databases
查询语言数据库
  • 批准号:
    0317826
  • 财政年份:
    2003
  • 资助金额:
    $ 9.99万
  • 项目类别:
    Continuing Grant
Eletronic Materials For Natural Language Research
用于自然语言研究的电子材料
  • 批准号:
    9113530
  • 财政年份:
    1991
  • 资助金额:
    $ 9.99万
  • 项目类别:
    Standard Grant

相似国自然基金

土壤微生物间相互作用对矿业废弃地生态修复的影响研究
  • 批准号:
    42307020
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
矿业、石油与安全学科代码优化战略研究
  • 批准号:
    52242403
  • 批准年份:
    2022
  • 资助金额:
    15.00 万元
  • 项目类别:
    专项项目
企业所有制异质性视角下的中国海外矿业投资多尺度嵌入研究
  • 批准号:
    42201189
  • 批准年份:
    2022
  • 资助金额:
    30.00 万元
  • 项目类别:
    青年科学基金项目
企业所有制异质性视角下的中国海外矿业投资多尺度嵌入研究
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
基于多要素生态风险过程的矿业城市空间格局优化方法研究
  • 批准号:
  • 批准年份:
    2019
  • 资助金额:
    63 万元
  • 项目类别:
    面上项目

相似海外基金

Evaluating the feasibility of an innovative point-of-care screening tool for detection of infant motor delay within the newborn period
评估用于检测新生儿时期婴儿运动迟缓的创新护理点筛查工具的可行性
  • 批准号:
    10742419
  • 财政年份:
    2023
  • 资助金额:
    $ 9.99万
  • 项目类别:
Reducing Lung Cancer Risk among Appalachian Women Using Community‐Engaged Intervention Research
利用社区参与干预研究降低阿巴拉契亚女性患肺癌的风险
  • 批准号:
    10579417
  • 财政年份:
    2023
  • 资助金额:
    $ 9.99万
  • 项目类别:
Harnessing Big Data to Identify Geographic Clusters of Low-income children with Poor HPV Vaccination Rates
利用大数据识别 HPV 疫苗接种率较低的低收入儿童的地理集群
  • 批准号:
    10478955
  • 财政年份:
    2021
  • 资助金额:
    $ 9.99万
  • 项目类别:
Harnessing Big Data to Identify Geographic Clusters of Low-income children with Poor HPV Vaccination Rates
利用大数据识别 HPV 疫苗接种率较低的低收入儿童的地理集群
  • 批准号:
    10619605
  • 财政年份:
    2021
  • 资助金额:
    $ 9.99万
  • 项目类别:
Harnessing Big Data to Identify Geographic Clusters of Low-income children with Poor HPV Vaccination Rates
利用大数据识别 HPV 疫苗接种率较低的低收入儿童的地理集群
  • 批准号:
    10282896
  • 财政年份:
    2021
  • 资助金额:
    $ 9.99万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了