SGER: Automatic Processing of Natural Language Code Switching

SGER:自然语言代码切换的自动处理

基本信息

  • 批准号:
    0749062
  • 负责人:
  • 金额:
    --
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2007
  • 资助国家:
    美国
  • 起止时间:
    2007-09-01 至 2009-02-28
  • 项目状态:
    已结题

项目摘要

Code switching is a natural linguistic phenomenon in which a speaker mixes two or more languages or dialects, or two or more linguistic registers from the same language. Extensive sociolinguistic studies have been dedicated to this widespread and common phenomenon and there has been some prior work in formal linguistics, but to date it has not been considered a problem of interest to the computational linguistics community. However, in this age of globalization and the current explosion in information and web access, more and more spontaneously generated linguistic data from around the world are being made available to the computational research community. Such data abounds with code switching in its different forms, so there is a real need for computational linguists to address code switching as a central research problem. This exploratory research effort addresses the issues of how to process code switching automatically. It examines the different aspects of code switching, allowing for the creation of better-principled algorithms based on a clear understanding of the phenomenon. The main questions revolve around morphological and syntactic constraints on switching and how these constraints can be modeled computationally. One of the outcomes of this research is the annotation of significant amounts of data exhibiting code switching in different languages, most likely Arabic, Hindi and Spanish. This research aims at initiating a formal study of code switching in a computational framework, which both increases our understanding of the phenomenon, and develops algorithms for processing natural language data that manifests code switching.
代码切换是一种自然的语言现象,在该现象中,扬声器将两种或多种语言或方言混合在一起,或两个或多种语言的语言寄存器。广泛的社会语言学研究已致力于这种广泛和共同的现象,并且在形式语言学上已经有一些先前的工作,但是迄今为止,它尚未被认为是计算语言学界的兴趣问题。但是,在这个全球化的时代以及信息和网络访问中的当前爆炸式爆炸时,来自世界各地的语言数据越来越多地为计算研究社区提供。这些数据以不同形式的代码切换充斥,因此计算语言学家真正需要将代码切换作为中心研究问题解决。这项探索性研究工作解决了如何自动处理代码切换的问题。它检查了代码切换的不同方面,从而基于对现象的清晰了解,可以创建更好原理的算法。主要问题围绕着形态学和句法的约束,以及如何对这些约束进行计算建模。这项研究的结果之一是大量数据以不同语言(最有可能是阿拉伯语,印地语和西班牙语)转换的数据注释。这项研究旨在启动对计算框架中的代码切换的正式研究,这既增强了我们对现象的理解,又开发了用于处理表现出代码切换的自然语言数据的算法。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Mona Diab其他文献

Combining Discrete Wavelet and Cosine Transforms for Efficient Sentence Embedding
结合离散小波和余弦变换实现高效句子嵌入
Improving Coherence of Language Model Generation with Latent Semantic State
提高语言模型生成与潜在语义状态的一致性
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Amanda Askell;Yuntao Bai;Anna Chen;Dawn Drain;Deep Ganguli;T. Henighan;Andy Jones;Benjamin Mann;Nova Dassarma;Nelson El;Zac Hatfield;Danny Hernandez;John Kernion;Kamal Ndousse;Catherine Olsson;Dario Amodei;Tom Brown;J. Clark;Sam Mc;Chris Olah;Jared Kaplan;Nick Ryder;Jared D Subbiah;Prafulla Kaplan;A. Dhariwal;P. Neelakantan;Girish Shyam;Amanda Sastry;Sandhini Askell;Ariel Agarwal;Herbert;Gretchen Krueger;R. Child;Aditya Ramesh;Daniel M. Ziegler;Jeffrey Wu;Christopher Winter;Mark Hesse;Eric Chen;Mateusz Sigler;Scott teusz Litwin;Benjamin Gray;Jack Chess;Christopher Clark;Sam Berner;Alec McCandlish;Ilya Radford;Sutskever Dario;Amodei;Joshua Maynez;Shashi Narayan;Bernd Bohnet;Kurt Shuster;Spencer Poff;Moya Chen;Douwe Kiela;Shane Storks;Qiaozi Gao;Yichi Zhang;Joyce Chai;Niket Tandon;Keisuke Sakaguchi;Bhavana Dalvi;Dheeraj Rajagopal;Peter Clark;Michal Guerquin;Kyle Richardson;Eduard H. Hovy;A. Dataset;Rowan Zellers;Ari Holtzman;Matthew E. Peters;Roozbeh Mottaghi;Aniruddha Kembhavi;Ali Farhadi;Chunting Zhou;Graham Neubig;Jiatao Gu;Mona Diab;Francisco Guzmán;Luke Zettlemoyer
  • 通讯作者:
    Luke Zettlemoyer
Investigating Cultural Alignment of Large Language Models
研究大型语言模型的文化一致性
  • DOI:
  • 发表时间:
    2024
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Badr AlKhamissi;Muhammad N. ElNokrashy;Mai AlKhamissi;Mona Diab
  • 通讯作者:
    Mona Diab
Grass: Compute Efficient Low-Memory LLM Training with Structured Sparse Gradients
Grass:使用结构化稀疏梯度计算高效的低内存 LLM 训练
  • DOI:
  • 发表时间:
    2024
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Aashiq Muhamed;Oscar Li;David Woodruff;Mona Diab;Virginia Smith
  • 通讯作者:
    Virginia Smith
Empirical Evaluation of Topic Zero-and Few-Shot Learning for Stance Dissonance Detection
用于立场失调检测的主题零和少样本学习的实证评估
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Emily Allaway;Malavika Srikanth;Kathleen McK;Samuel R. Bowman;Gabor Angeli;Christopher Potts;Daniel Cer;Mona Diab;Eneko Agirre;Iñigo Lopez
  • 通讯作者:
    Iñigo Lopez

Mona Diab的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Mona Diab', 18)}}的其他基金

CI-P: Towards the Creation of a Unified Repository for MultiLingual and CrossLingual Multiword Expressions
CI-P:为多语言和跨语言多词表达式创建统一存储库
  • 批准号:
    1513116
  • 财政年份:
    2015
  • 资助金额:
    --
  • 项目类别:
    Standard Grant
CI-ADDO-NEW: Collaborative Research: A Repository for Annotating Multilingual Code Switched Data
CI-ADDO-NEW:协作研究:用于注释多语言代码交换数据的存储库
  • 批准号:
    1343530
  • 财政年份:
    2013
  • 资助金额:
    --
  • 项目类别:
    Standard Grant
CI-ADDO-NEW: Collaborative Research: A Repository for Annotating Multilingual Code Switched Data
CI-ADDO-NEW:协作研究:用于注释多语言代码交换数据的存储库
  • 批准号:
    1205556
  • 财政年份:
    2012
  • 资助金额:
    --
  • 项目类别:
    Standard Grant
Collaborative Research: CI-P: Creation of an annotated repository of multilingual and multigenre code switched data for several language pairs
合作研究:CI-P:创建多个语言对的多语言和多流派代码交换数据的带注释存储库
  • 批准号:
    0958440
  • 财政年份:
    2010
  • 资助金额:
    --
  • 项目类别:
    Standard Grant

相似国自然基金

躯体情绪动作与非情绪动作在早期自动化加工中的分离
  • 批准号:
    31960181
  • 批准年份:
    2019
  • 资助金额:
    38 万元
  • 项目类别:
    地区科学基金项目
自动化认知调节启动对社会传递性恐惧的干预及神经机制
  • 批准号:
    31871103
  • 批准年份:
    2018
  • 资助金额:
    62.0 万元
  • 项目类别:
    面上项目
暗示性运动记忆优势效应:影响因素及形成机制
  • 批准号:
    31800913
  • 批准年份:
    2018
  • 资助金额:
    25.0 万元
  • 项目类别:
    青年科学基金项目
加工速度可变的节能型自动化制造单元调度研究
  • 批准号:
    71871183
  • 批准年份:
    2018
  • 资助金额:
    49.0 万元
  • 项目类别:
    面上项目
大功率超磁致伸缩旋转超声加工系统的谐振频率自动跟踪方法与振幅稳定性控制策略
  • 批准号:
    51875311
  • 批准年份:
    2018
  • 资助金额:
    61.0 万元
  • 项目类别:
    面上项目

相似海外基金

User-friendly Analysis Platform for Decentralized Multi-site Diffusion MRI Studies
用于分散式多站点扩散 MRI 研究的用户友好分析平台
  • 批准号:
    10724720
  • 财政年份:
    2023
  • 资助金额:
    --
  • 项目类别:
FetAS: Fetal Assessment Suite to Facilitate Rapid Fetal MRI Diagnosis using Artificial Intelligence
FetAS:胎儿评估套件,利用人工智能促进胎儿 MRI 快速诊断
  • 批准号:
    478151
  • 财政年份:
    2023
  • 资助金额:
    --
  • 项目类别:
    Operating Grants
Excellence in Research: Exploring Effectiveness of Automatic Assessment of Cognitive and Metacognitive Processes in Engineering Learning through Natural Language Processing Models
卓越研究:通过自然语言处理模型探索工程学习中认知和元认知过程自动评估的有效性
  • 批准号:
    2302686
  • 财政年份:
    2023
  • 资助金额:
    --
  • 项目类别:
    Standard Grant
Promoting Universal Screening and Early Identification of Child ADHD via Integrated Automatic EHR Supports in Primary Care
通过初级保健中的集成自动 EHR 支持促进儿童 ADHD 的普遍筛查和早期识别
  • 批准号:
    10883975
  • 财政年份:
    2023
  • 资助金额:
    --
  • 项目类别:
Automatic identification of early bone loss patterns from radiographs invisible to human eyes for early periodontal disease diagnosis and prevention
从人眼看不见的射线照片中自动识别早期骨质流失模式,用于早期牙周病的诊断和预防
  • 批准号:
    10723693
  • 财政年份:
    2023
  • 资助金额:
    --
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了