CI-ADDO-NEW: Collaborative Research: A Repository for Annotating Multilingual Code Switched Data

CI-ADDO-NEW:协作研究:用于注释多语言代码交换数据的存储库

基本信息

  • 批准号:
    1205475
  • 负责人:
  • 金额:
    $ 36.43万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2012
  • 资助国家:
    美国
  • 起止时间:
    2012-09-01 至 2014-11-30
  • 项目状态:
    已结题

项目摘要

Linguistic code switching (LCS) is the practice of switching back and forth between the shared languages of bilingual or multilingual speakers. This phenomenon is particularly prevalent in geographic regions with linguistic boundaries or where there are large immigrant groups. Various levels of language (phonological, morphological, syntactic, semantic and discourse-pragmatic) may be implicated in LCS in different language pairs and/or genres. Computational algorithms trained for a single language quickly break down when the input includes LCS. A major barrier to research on LCS in computational linguistics (CL) has been the lack of large, accurately annotated corpora of LCS data. In this project, a large repository of LCS data is collected and a large annotation infrastructure is developed. It is consistently annotated in different modalities (speech and text), at various levels of linguistic granularity, and across different language pairs reflecting different linguistic typologies (Standard Arabic and Dialectal Arabic, Arabic-English, Spanish-English, Chinese-English, Hindi-English). The focus of the effort is on intra-sentential LCS.This infrastructure and unified large LCS data resource is eagerly awaited by the CL research community, since annotated LCS data provides a natural test-bed for adaptive learning algorithms and the handling of diverse data sources, as well as a framework for genuine multilingual processing. It will also be of benefit to sociolinguistic and theoretical linguistic researchers, and provide a platform for collaborative interdisciplinary research. Finally, research on LCS helps overcome biases against multilingual speakers by demonstrating the creativity of such speakers in exploiting their verbal repertoires. Such a result is particularly important for K-12 education and testing policies in the USA with its diverse immigrant population.
语言代码转换(LCS)是在双语或多语言使用者的共享语言之间来回切换的做法。这种现象在有语言界限或有大量移民群体的地理区域尤其普遍。不同语言对和/或流派的 LCS 可能涉及不同级别的语言(语音、形态、句法、语义和话语语用)。当输入包含 LCS 时,针对单一语言训练的计算算法很快就会崩溃。计算语言学 (CL) 中 LCS 研究的一个主要障碍是缺乏大型、准确注释的 LCS 数据语料库。在该项目中,收集了大型 LCS 数据存储库并开发了大型注释基础设施。它以不同的方式(语音和文本)、不同的语言粒度级别以及反映不同语言类型的不同语言对(标准阿拉伯语和方言阿拉伯语、阿拉伯语-英语、西班牙语-英语、汉语-英语、印地语)进行一致注释。英语)。这项工作的重点是句内 LCS。这种基础设施和统一的大型 LCS 数据资源受到 CL 研究社区的热切期待,因为带注释的 LCS 数据为自适应学习算法和处理不同数据源提供了天然的测试平台,以及真正的多语言处理框架。它还将使社会语言学和理论语言学研究人员受益,并为跨学科合作研究提供平台。最后,LCS 研究通过展示多语言使用者在利用其言语技能方面的创造力,帮助克服对多语言使用者的偏见。这样的结果对于移民人口多元化的美国的 K-12 教育和考试政策尤为重要。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Thamar Solorio其他文献

Thamar Solorio的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Thamar Solorio', 18)}}的其他基金

IRES Track I: US-Mexico Collaboration on Multimodal Detection of Objectionable Content in Online Videos in Spanish and English
IRES 轨道 I:美国-墨西哥合作对西班牙语和英语在线视频中的不良内容进行多模式检测
  • 批准号:
    2106892
  • 财政年份:
    2021
  • 资助金额:
    $ 36.43万
  • 项目类别:
    Standard Grant
Workshop on desiderata for a multimodal dataset for objectionable content detection
用于不良内容检测的多模式数据集需求研讨会
  • 批准号:
    2036368
  • 财政年份:
    2020
  • 资助金额:
    $ 36.43万
  • 项目类别:
    Standard Grant
RI: Small: Robust Models for Sequence Labelling in Social Media Data
RI:小型:社交媒体数据中序列标记的稳健模型
  • 批准号:
    1910192
  • 财政年份:
    2019
  • 资助金额:
    $ 36.43万
  • 项目类别:
    Standard Grant
HCC: Small: Collaborative Research: Analysis of Language Samples for Detecting Language Impairment in Monolingual and Bilingual Children
HCC:小型:合作研究:分析语言样本以检测单语和双语儿童的语言障碍
  • 批准号:
    1462143
  • 财政年份:
    2014
  • 资助金额:
    $ 36.43万
  • 项目类别:
    Standard Grant
CI-ADDO-NEW: Collaborative Research: A Repository for Annotating Multilingual Code Switched Data
CI-ADDO-NEW:协作研究:用于注释多语言代码交换数据的存储库
  • 批准号:
    1462142
  • 财政年份:
    2014
  • 资助金额:
    $ 36.43万
  • 项目类别:
    Standard Grant
CAREER: Authorship Analysis in Cross-Domain Settings
职业:跨域设置中的作者分析
  • 批准号:
    1350360
  • 财政年份:
    2014
  • 资助金额:
    $ 36.43万
  • 项目类别:
    Continuing Grant
CAREER: Authorship Analysis in Cross-Domain Settings
职业:跨域设置中的作者分析
  • 批准号:
    1462141
  • 财政年份:
    2014
  • 资助金额:
    $ 36.43万
  • 项目类别:
    Continuing Grant
ACL-HLT 2011 Student Session
ACL-HLT 2011 学生会议
  • 批准号:
    1102435
  • 财政年份:
    2011
  • 资助金额:
    $ 36.43万
  • 项目类别:
    Standard Grant
Young Investigators in the Americas Workshop
美洲青年研究者研讨会
  • 批准号:
    1008711
  • 财政年份:
    2010
  • 资助金额:
    $ 36.43万
  • 项目类别:
    Standard Grant
HCC: Small: Collaborative Research: Analysis of Language Samples for Detecting Language Impairment in Monolingual and Bilingual Children
HCC:小型:合作研究:分析语言样本以检测单语和双语儿童的语言障碍
  • 批准号:
    1018124
  • 财政年份:
    2010
  • 资助金额:
    $ 36.43万
  • 项目类别:
    Standard Grant

相似国自然基金

基于星形胶质细胞多脑区钙成像识别阿尔兹海默症早期病变位点及多点精准移植研究
  • 批准号:
    82371485
  • 批准年份:
    2023
  • 资助金额:
    49 万元
  • 项目类别:
    面上项目
寒区阿什河流域农田土壤镉源汇解析及多介质界面迁移过程耦合研究
  • 批准号:
    52309042
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
基于多尺度多模态脑网络的阿尔茨海默症病理进程研究
  • 批准号:
    62302044
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
东昆仑-西昆仑-阿尔金交接区多陆块聚合过程:原-古特提斯转换及其动力学机制
  • 批准号:
    42330310
  • 批准年份:
    2023
  • 资助金额:
    232 万元
  • 项目类别:
    重点项目
临床前阿尔兹海默病诊断的多参数多探针PET/MRI精准定量研究
  • 批准号:
    82372081
  • 批准年份:
    2023
  • 资助金额:
    48 万元
  • 项目类别:
    面上项目

相似海外基金

CI-ADDO-NEW: Collaborative Research: Development of DARwIn Humanoid Robots for Research, Education and Outreach
CI-ADDO-NEW:协作研究:开发用于研究、教育和推广的 DARwIn 人形机器人
  • 批准号:
    1564417
  • 财政年份:
    2015
  • 资助金额:
    $ 36.43万
  • 项目类别:
    Continuing Grant
CI-ADDO-NEW: Collaborative Research: A Repository for Annotating Multilingual Code Switched Data
CI-ADDO-NEW:协作研究:用于注释多语言代码交换数据的存储库
  • 批准号:
    1462142
  • 财政年份:
    2014
  • 资助金额:
    $ 36.43万
  • 项目类别:
    Standard Grant
CI-ADDO-NEW: Collaborative Research: The Speech Recognition Virtual Kitchen
CI-ADDO-NEW:协作研究:语音识别虚拟厨房
  • 批准号:
    1305365
  • 财政年份:
    2013
  • 资助金额:
    $ 36.43万
  • 项目类别:
    Standard Grant
CI-ADDO-NEW: OCCAM: Open Curation for Computer Architecture Modeling
CI-ADDO-NEW:OCCAM:计算机架构建模的开放式管理
  • 批准号:
    1305220
  • 财政年份:
    2013
  • 资助金额:
    $ 36.43万
  • 项目类别:
    Standard Grant
CI-ADDO-NEW: Collaborative Research: The Speech Recognition Virtual Kitchen
CI-ADDO-NEW:协作研究:语音识别虚拟厨房
  • 批准号:
    1305319
  • 财政年份:
    2013
  • 资助金额:
    $ 36.43万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了