BIGDATA: Small: DA: Big Multilinguality for Data-Driven Lexical Semantics

BIGDATA:小:DA:数据驱动词汇语义的大多语言性

基本信息

  • 批准号:
    1251131
  • 负责人:
  • 金额:
    $ 25万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2013
  • 资助国家:
    美国
  • 起止时间:
    2013-08-01 至 2015-09-30
  • 项目状态:
    已结题

项目摘要

A key challenge in natural language processing is defining the computational representation of words. Data-driven distributional approaches use corpora to induce vector-space representations for words, based on the contexts they occur in. This project goes beyond traditional approaches (e.g., latent semantic analysis; Deerwester et al., 1990), which use words that tend to occur near a word in corpora to define the context, by extending the types of contexts used in constructing semantic vectors. First, this project incorporates translation contexts, i.e., words readily available in multilingual parallel corpora, alongside traditional monolingual corpora. This allows evidence-sharing across languages, most importantly from resource-rich languages with large corpora to more resource-poor languages. Second, this project incorporates social context inferable from social network platforms, captured through author, time, geographic, and social connection metadata. Taken together, these additional features give a broader definition of a word's context and lead to a more unified approach to the distributional approach to modeling human language, moving in the direction of a language-independent semantics. The project focuses on ten typologically diverse languages representing several major language families (English, Arabic, Chinese, Spanish, Russian, German, Portuguese, Swahili, Malagasy, and Farsi). A key emphasis is scaling up algorithms for inferring distributional representations to web-scale corpora and dealing with much larger contextual vectors representing the expanded notion of context. The approach also leverages noisy syntactic processing to enable syntactic information, rather than just information about neighboring words, to be considered when defining context.In addition to improving the quality of the learned lexico-semantic representations by including richer contextual information, this project creates lexical semantic representations that link word types across languages. These have direct use in text processing applications such as text categorization, machine translation, information extraction, and semantic analysis of text, and they will enable the construction of robust lexical semantic resources in lower-resource languages that benefit from the richness of resources in languages they are paired with. The multilingual vector representations produced will be released to the research community and will be used in undergraduate class projects. The project provides integrated educational and research experience for two graduate students in a dynamic research environment. The project website (http://www.ark.cs.cmu.edu/BigMultilinguality) will be used for dissemination of results.
自然语言处理中的一个关键挑战是定义单词的计算表示。 基于它们发生的上下文,数据驱动的分布方法使用CORPORA来诱导单词的矢量空间表示。该项目超越了传统方法(例如,潜在的语义分析; Deerwester等,1990),这些单词倾向于在Corpora附近发生的单词来定义上下文,通过扩展上下文,以扩展上下文,以扩展语境构建语言vectors semantic vectors。 首先,该项目结合了翻译上下文,即在多语言平行语料库中随时可用的单词以及传统的单语言语料库。 这允许跨语言共享证据,最重要的是,从拥有大型语料库的资源丰富的语言到更多资源贫乏的语言。 其次,该项目结合了可从社交网络平台中推断出的社会环境,这些平台通过作者,时间,地理和社会联系元数据捕获。 综上所述,这些附加功能给出了对单词上下文的更广泛的定义,并为建模人类语言的分配方法提供了更统一的方法,并朝着独立于语言的语义的方向发展。 该项目着重于代表几种主要语言家庭的十种类型上多样化的语言(英语,中文,西班牙语,俄语,德语,葡萄牙语,斯瓦希里语,马拉加尼和法尔西)。一个关键的重点是扩展算法将分布表示为网络规模的语料库,并处理代表上下文概念的更大的上下文向量。 该方法还利用嘈杂的句法处理来启用句法信息,而不是仅仅在定义上下文时考虑有关相邻单词的信息。除了通过包括更丰富的上下文信息包括较丰富的上下文信息来提高学习词典的语义语义表示的质量,该项目创建该项目创建链接跨语言类型的词汇语义表示。这些直接用于文本处理应用程序,例如文本分类,机器翻译,信息提取和文本的语义分析,它们将在低资源语言中构建强大的词汇语义资源,这些语言受益于与它们与之配对的语言的丰富性。 产生的多语​​言矢量表示将发布给研究社区,并将用于本科课程项目。 该项目在动态研究环境中为两位研究生提供了综合的教育和研究经验。 项目网站(http://www.ark.cs.cmu.edu/bigmultlinguality)将用于传播结果。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Noah Smith其他文献

THE NORTH ATLANTIC TREATY ORGANIZATION AND UNITED STATES RELATIONSHIP: A STUDY OF ITS DEVELOPMENT AND POSSIBLE FUTURE
北大西洋公约组织与美国的关系:对其发展和可能的未来的研究
  • DOI:
  • 发表时间:
    2015
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Noah Smith
  • 通讯作者:
    Noah Smith
Buying health: assessing the impact of a consumer-side vegetable subsidy on purchasing, consumption and waste
购买健康:评估消费者侧蔬菜补贴对购买、消费和浪费的影响
  • DOI:
  • 发表时间:
    2015
  • 期刊:
  • 影响因子:
    3.2
  • 作者:
    Noah Smith
  • 通讯作者:
    Noah Smith
Implications for cumulative and prolonged clinical improvement induced by cross-linked hyaluronic acid: An in vivo biochemical/microscopic study in humans.
交联透明质酸诱导的累积和长期临床改善的影响:人类体内生化/显微镜研究。
  • DOI:
    10.1111/exd.14998
  • 发表时间:
    2024
  • 期刊:
  • 影响因子:
    3.6
  • 作者:
    Frank Wang;T. Do;Noah Smith;J. Orringer;Sewon Kang;John J Voorhees;Gary J. Fisher
  • 通讯作者:
    Gary J. Fisher
Biopsy of Suspected Melanoma
疑似黑色素瘤活检
  • DOI:
    10.1007/978-3-319-46029-1_10-1
  • 发表时间:
    2018
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Noah Smith;T. Johnson;J. Kelly;A. Sober;C. Bichakjian
  • 通讯作者:
    C. Bichakjian
How party nationalization conditions economic voting
  • DOI:
    10.1016/j.electstud.2016.11.014
  • 发表时间:
    2017-06-01
  • 期刊:
  • 影响因子:
  • 作者:
    Scott Morgenstern;Noah Smith;Alejandro Trelles
  • 通讯作者:
    Alejandro Trelles

Noah Smith的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Noah Smith', 18)}}的其他基金

NSF-BSF: RI: Small: Efficient Transformers via Formal and Empirical Analysis
NSF-BSF:RI:小型:通过形式和经验分析的高效变压器
  • 批准号:
    2113530
  • 财政年份:
    2021
  • 资助金额:
    $ 25万
  • 项目类别:
    Standard Grant
RI/SES: Conference Proposal: Doctoral Consortium on Text as Data
RI/SES:会议提案:文本即数据博士联盟
  • 批准号:
    1830158
  • 财政年份:
    2018
  • 资助金额:
    $ 25万
  • 项目类别:
    Standard Grant
NSF-BSF: RI: Small: Collaborative Research: Modeling Crosslinguistic Influences Between Language Varieties
NSF-BSF:RI:小型:协作研究:模拟语言品种之间的跨语言影响
  • 批准号:
    1813153
  • 财政年份:
    2018
  • 资助金额:
    $ 25万
  • 项目类别:
    Continuing Grant
RI: Medium: Broad-Coverage Semantic Parsing: Linguistic Representation Learning from Crowd-Scale Data
RI:中:广泛覆盖的语义解析:从人群规模数据中学习语言表示
  • 批准号:
    1562364
  • 财政年份:
    2016
  • 资助金额:
    $ 25万
  • 项目类别:
    Continuing Grant
Workshop: Support for a workshop on scientific research applications of natural language technologies
研讨会:支持自然语言技术科研应用研讨会
  • 批准号:
    1433108
  • 财政年份:
    2014
  • 资助金额:
    $ 25万
  • 项目类别:
    Standard Grant
EAGER: PARTIAL: An Exploratory Study on Practical Approaches for Robust NLP Tools with Integrated Annotation Languages
EAGER: PARTIAL:关于具有集成注释语言的鲁棒 NLP 工具实用方法的探索性研究
  • 批准号:
    1352440
  • 财政年份:
    2013
  • 资助金额:
    $ 25万
  • 项目类别:
    Standard Grant
SoCS: Collaborative Research: Data-Driven, Computational Models for Discovery and Analysis of Framing
SoCS:协作研究:用于发现和分析框架的数据驱动计算模型
  • 批准号:
    1211277
  • 财政年份:
    2012
  • 资助金额:
    $ 25万
  • 项目类别:
    Standard Grant
CAREER: Flexible Learning for Natural Language Processing
职业:自然语言处理的灵活学习
  • 批准号:
    1054319
  • 财政年份:
    2011
  • 资助金额:
    $ 25万
  • 项目类别:
    Continuing Grant
RI-Small: Probabilistic Models for Structure Discovery in Text
RI-Small:文本结构发现的概率模型
  • 批准号:
    0915187
  • 财政年份:
    2009
  • 资助金额:
    $ 25万
  • 项目类别:
    Continuing Grant
SGER: Scaling up unsupervised grammar induction
SGER:扩大无监督语法归纳
  • 批准号:
    0836431
  • 财政年份:
    2008
  • 资助金额:
    $ 25万
  • 项目类别:
    Standard Grant

相似国自然基金

聚合物化A-DA'D-A型稠环小分子受体材料的设计、合成及其光伏性能研究
  • 批准号:
    22279094
  • 批准年份:
    2022
  • 资助金额:
    54.00 万元
  • 项目类别:
    面上项目
聚合物化A-DA'D-A型稠环小分子受体材料的设计、合成及其光伏性能研究
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    54 万元
  • 项目类别:
    面上项目
涤痰汤对PV- Glu/SKCa- DA能神经元通路的影响
  • 批准号:
    81774230
  • 批准年份:
    2017
  • 资助金额:
    55.0 万元
  • 项目类别:
    面上项目
小胶质细胞TLR3/4-TRIF信号转导对DA神经元存活的作用及机制
  • 批准号:
    81241019
  • 批准年份:
    2012
  • 资助金额:
    10.0 万元
  • 项目类别:
    专项基金项目
HLrp对JAK-STAT通路的可能调控在LPS诱导小胶质细胞活化及DA能细胞损伤中的作用
  • 批准号:
    30972429
  • 批准年份:
    2009
  • 资助金额:
    30.0 万元
  • 项目类别:
    面上项目

相似海外基金

BIGDATA: Small: DA: Collaborative Research: Real Time Observation Analysis for Healthcare Applications via Automatic Adaptation to Hardware Limitations
BIGDATA:小型:DA:协作研究:通过自动适应硬件限制对医疗保健应用进行实时观察分析
  • 批准号:
    1638429
  • 财政年份:
    2016
  • 资助金额:
    $ 25万
  • 项目类别:
    Standard Grant
BIGDATA: Small: DA: Mining large graphs through subgraph sampling
BIGDATA:小:DA:通过子图采样挖掘大图
  • 批准号:
    1250786
  • 财政年份:
    2013
  • 资助金额:
    $ 25万
  • 项目类别:
    Standard Grant
BIGDATA: Small: DA: Collaborative Research: Real Time Observation Analysis for Healthcare Applications via Automatic Adaptation to Hardware Limitations
BIGDATA:小型:DA:协作研究:通过自动适应硬件限制对医疗保健应用进行实时观察分析
  • 批准号:
    1251031
  • 财政年份:
    2013
  • 资助金额:
    $ 25万
  • 项目类别:
    Standard Grant
BIGDATA: Small: DA: Classification Platform for Novel Scientific Insight on Time-Series Data
BIGDATA:小型:DA:时间序列数据新科学见解的分类平台
  • 批准号:
    1251274
  • 财政年份:
    2013
  • 资助金额:
    $ 25万
  • 项目类别:
    Standard Grant
BIGDATA: Small: DA: DCM: Measurement and Learning in Large-Scale Social Networks
BIGDATA:小型:DA:DCM:大规模社交网络中的测量和学习
  • 批准号:
    1251267
  • 财政年份:
    2013
  • 资助金额:
    $ 25万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了