RI: Small: Robust Models for Sequence Labelling in Social Media Data

RI:小型:社交媒体数据中序列标记的稳健模型

基本信息

  • 批准号:
    1910192
  • 负责人:
  • 金额:
    $ 30.79万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2019
  • 资助国家:
    美国
  • 起止时间:
    2019-10-01 至 2024-09-30
  • 项目状态:
    已结题

项目摘要

In the last decade social media platforms have increased their impact on the way people communicate; these platforms are now considered an essential communication tool that people use broadly to share information, but also to get informed about the latest events on any topic. Consequently, the information running through those platforms, generated by users, companies, the media, and political entities, is extremely relevant to understand current events, behaviors, and more, and the automated distillation of this data is of great practical value. Current technology for text processing fails to perform information extraction accurately on social media data since these sophisticated algorithms have been trained on highly edited English text with a narrow set of topics, such as that in newswire data. In contrast, social media data has a fluid grammar, a very large vocabulary, unlimited topics, and includes multiple languages that are often mixed in the same text. This project addresses the many challenges involved in the automated processing from social media sources. Additionally, the research team will develop and release new annotated data that will enable new research in this direction. Furthermore, this project will address broadening participation in computer science by supporting graduate and undergraduate students, several of them from underrepresented groups in Computer Science.The underlying premise of this project is that a tighter coupling of representation learning with linguistic and domain knowledge will allow the models to learn the tasks by distilling all relevant linguistic abstractions in each single text, without requiring prohibitively large amounts of labeled data, as is typically the case in end-to-end deep-learning models. This award will design robust approaches for sequence labeling tasks that can analyze social media data with a two-pronged approach. First, the research team will study the challenges imposed by social media data and their correlation to prediction performance. Then the investigators will design new model architectures for sequence labeling tasks where domain and linguistic knowledge supervise the learning process. The evaluation of the proposed models will include data from different social media sources.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
在过去的十年中,社交媒体平台对人们沟通方式的影响不断增强。这些平台现在被认为是一种重要的交流工具,人们广泛使用它来共享信息,同时也可以了解任何主题的最新事件。因此,用户、公司、媒体和政治实体生成的通过这些平台运行的信息对于了解时事、行为等极为相关,并且这些数据的自动提炼具有巨大的实用价值。当前的文本处理技术无法在社交媒体数据上准确地执行信息提取,因为这些复杂的算法是在经过高度编辑且主题范围狭窄的英文文本(例如新闻专线数据中的)上进行训练的。相比之下,社交媒体数据具有流畅的语法、非常大的词汇量、无限的主题,并且包含经常混合在同一文本中的多种语言。该项目解决了社交媒体源自动化处理中涉及的许多挑战。此外,研究团队将开发并发布新的带注释的数据,这将使该方向的新研究成为可能。此外,该项目将通过支持研究生和本科生(其中一些来自计算机科学领域代表性不足的群体)来扩大对计算机科学的参与。该项目的基本前提是表示学习与语言和领域知识的更紧密耦合将允许模型通过提取每个文本中的所有相关语言抽象来学习任务,而不需要大量的标记数据,这在端到端深度学习模型中是典型的情况。该奖项将为序列标记任务设计强大的方法,可以通过双管齐下的方法分析社交媒体数据。首先,研究团队将研究社交媒体数据带来的挑战及其与预测性能的相关性。然后,研究人员将为序列标记任务设计新的模型架构,其中领域和语言知识监督学习过程。对拟议模型的评估将包括来自不同社交媒体来源的数据。该奖项反映了 NSF 的法定使命,并通过使用基金会的智力价值和更广泛的影响审查标准进行评估,被认为值得支持。

项目成果

期刊论文数量(1)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Mitigating Temporal-Drift: A Simple Approach to Keep NER Models Crisp
减轻时间漂移:保持 NER 模型清晰的简单方法
  • DOI:
    10.18653/v1/2021.socialnlp-1.14
  • 发表时间:
    2021-04-20
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Shuguang Chen;Leonardo Neves;T. Solorio
  • 通讯作者:
    T. Solorio
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Thamar Solorio其他文献

Thamar Solorio的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Thamar Solorio', 18)}}的其他基金

IRES Track I: US-Mexico Collaboration on Multimodal Detection of Objectionable Content in Online Videos in Spanish and English
IRES 轨道 I:美国-墨西哥合作对西班牙语和英语在线视频中的不良内容进行多模式检测
  • 批准号:
    2106892
  • 财政年份:
    2021
  • 资助金额:
    $ 30.79万
  • 项目类别:
    Standard Grant
Workshop on desiderata for a multimodal dataset for objectionable content detection
用于不良内容检测的多模式数据集需求研讨会
  • 批准号:
    2036368
  • 财政年份:
    2020
  • 资助金额:
    $ 30.79万
  • 项目类别:
    Standard Grant
HCC: Small: Collaborative Research: Analysis of Language Samples for Detecting Language Impairment in Monolingual and Bilingual Children
HCC:小型:合作研究:分析语言样本以检测单语和双语儿童的语言障碍
  • 批准号:
    1462143
  • 财政年份:
    2014
  • 资助金额:
    $ 30.79万
  • 项目类别:
    Standard Grant
CI-ADDO-NEW: Collaborative Research: A Repository for Annotating Multilingual Code Switched Data
CI-ADDO-NEW:协作研究:用于注释多语言代码交换数据的存储库
  • 批准号:
    1462142
  • 财政年份:
    2014
  • 资助金额:
    $ 30.79万
  • 项目类别:
    Standard Grant
CAREER: Authorship Analysis in Cross-Domain Settings
职业:跨域设置中的作者分析
  • 批准号:
    1350360
  • 财政年份:
    2014
  • 资助金额:
    $ 30.79万
  • 项目类别:
    Continuing Grant
CAREER: Authorship Analysis in Cross-Domain Settings
职业:跨域设置中的作者分析
  • 批准号:
    1462141
  • 财政年份:
    2014
  • 资助金额:
    $ 30.79万
  • 项目类别:
    Continuing Grant
CI-ADDO-NEW: Collaborative Research: A Repository for Annotating Multilingual Code Switched Data
CI-ADDO-NEW:协作研究:用于注释多语言代码交换数据的存储库
  • 批准号:
    1205475
  • 财政年份:
    2012
  • 资助金额:
    $ 30.79万
  • 项目类别:
    Standard Grant
ACL-HLT 2011 Student Session
ACL-HLT 2011 学生会议
  • 批准号:
    1102435
  • 财政年份:
    2011
  • 资助金额:
    $ 30.79万
  • 项目类别:
    Standard Grant
Young Investigators in the Americas Workshop
美洲青年研究者研讨会
  • 批准号:
    1008711
  • 财政年份:
    2010
  • 资助金额:
    $ 30.79万
  • 项目类别:
    Standard Grant
HCC: Small: Collaborative Research: Analysis of Language Samples for Detecting Language Impairment in Monolingual and Bilingual Children
HCC:小型:合作研究:分析语言样本以检测单语和双语儿童的语言障碍
  • 批准号:
    1018124
  • 财政年份:
    2010
  • 资助金额:
    $ 30.79万
  • 项目类别:
    Standard Grant

相似国自然基金

小分子代谢物Catechin与TRPV1相互作用激活外周感觉神经元介导尿毒症瘙痒的机制研究
  • 批准号:
    82371229
  • 批准年份:
    2023
  • 资助金额:
    49 万元
  • 项目类别:
    面上项目
DHEA抑制小胶质细胞Fis1乳酸化修饰减轻POCD的机制
  • 批准号:
    82301369
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
SETDB1调控小胶质细胞功能及参与阿尔茨海默病发病机制的研究
  • 批准号:
    82371419
  • 批准年份:
    2023
  • 资助金额:
    49 万元
  • 项目类别:
    面上项目
PTBP1驱动H4K12la/BRD4/HIF1α复合物-PKM2正反馈环路促进非小细胞肺癌糖代谢重编程的机制研究及治疗方案探索
  • 批准号:
    82303616
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

RI: Small: Toward Efficient and Robust Dynamic Scene Understanding Based on Visual Correspondences
RI:小:基于视觉对应的高效、鲁棒的动态场景理解
  • 批准号:
    2310254
  • 财政年份:
    2023
  • 资助金额:
    $ 30.79万
  • 项目类别:
    Standard Grant
Collaborative Research: RI: Small: Robust Deep Learning with Big Imbalanced Data
合作研究:RI:小型:具有大不平衡数据的鲁棒深度学习
  • 批准号:
    2246756
  • 财政年份:
    2022
  • 资助金额:
    $ 30.79万
  • 项目类别:
    Continuing Grant
Collaborative Research: RI: Small: Robust Deep Learning with Big Imbalanced Data
合作研究:RI:小型:具有大不平衡数据的鲁棒深度学习
  • 批准号:
    2110545
  • 财政年份:
    2021
  • 资助金额:
    $ 30.79万
  • 项目类别:
    Continuing Grant
Collaborative Research: RI: Small: Robust Deep Learning with Big Imbalanced Data
合作研究:RI:小型:具有大不平衡数据的鲁棒深度学习
  • 批准号:
    2110546
  • 财政年份:
    2021
  • 资助金额:
    $ 30.79万
  • 项目类别:
    Continuing Grant
RI: Small: Speech-Centered Robust and Generalizable Measurements of "In the Wild" Behavior for Mental Health Symptom Severity Tracking
RI:小:以语音为中心的稳健且可概括的“野外”行为测量,用于心理健康症状严重程度跟踪
  • 批准号:
    2006618
  • 财政年份:
    2020
  • 资助金额:
    $ 30.79万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了