RI: Small: RUI: AIR: Automatic Idiom Recognition

RI:小:RUI:AIR:自动成语识别

基本信息

  • 批准号:
    1319846
  • 负责人:
  • 金额:
    $ 17.65万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2013
  • 资助国家:
    美国
  • 起止时间:
    2013-08-01 至 2018-01-31
  • 项目状态:
    已结题

项目摘要

The main goal of this research project is to develop a language independent method for automatic idiom recognition. Idiomatic expressions, such as 'a blessing in disguise' and 'kick the bucket' are plentiful in everyday language, though they remain mysterious, as it is not clear exactly how people learn and understand them. There is no single agreed-upon definition of idiom that covers all members of this class, but idioms tend to be relatively fixed in grammatical form and meaning, but with relatively little predictability in the relation between form and meaning. Also, many idiomatic expressions can appear with both literal, i.e. fully predictable, interpretations given their form -- compare 'The little girl made a face at her mother.' (idiomatic) vs. 'The little girl made a face on the snowman using a carrot and two buttons.' (literal) As a result, idioms present great challenges for a variety of natural language processing applications, including machine translation systems, which often do not detect idiomatic language. To address these challenges, an algorithm is proposed that neither relies on target idiom types, lexicons, or large manually annotated corpora, nor limits the search space by a particular type of linguistic construction. The starting point is that idioms are semantic outliers that violate cohesive structure, especially in local contexts. The following properties are quantified and are incorporated into the outlier detection algorithm: 1) lack of compositionality comparing to literal expressions or other types of collocations; 2) violation of local cohesive ties, so that they tend to be semantically distant from the local topics; 3) while not all semantic outliers are idioms, non-compositional semantic outliers are likely to be idiomatic; 4) idiomaticity is not a binary property; rather, idioms fall on the continuum from being compositional to being partly unanalyzable to completely non-compositional.This research contributes to the better understanding of idiomatic language, to the computational treatment of such phenomena and, with the creation of high quality, publicly available linguistic resources annotated for idioms, to the facilitation of machine learning research and big data science. Additional benefits include efficient algorithms for computing compositionality and topicality from large corpora, interesting new generalizations about the nature of figurative language, and the training of a cadre of undergraduate and graduate students in highly practical work on a difficult interdisciplinary problem.
该研究项目的主要目标是开发一种独立的语言方法来自动惯用识别。惯用的表达方式,例如“伪装的祝福”和“踢水桶”,尽管它们仍然是神秘的,但尚不清楚人们如何学习和理解它们。涵盖了这个班级的所有成员的单一同意的定义,但成语往往相对固定,形式和含义相对固定,但在形式和含义之间的关系中的可预测性相对较小。同样,鉴于他们的形式,可以用字面意思(即完全可以预测的解释)出现许多惯用的表情 - 比较“小女孩对母亲的面孔”。 (惯用)与“小女孩用胡萝卜和两个纽扣在雪人的脸上做出了脸。” (字面意思)因此,成语对各种自然语言处理应用程序(包括机器翻译系统)提出了巨大挑战,这些应用程序通常无法检测到惯用语言。为了应对这些挑战,提出了一种算法,该算法既不依赖于目标成语类型,词典或大型手动注释的语料库,也不限制搜索空间的特定类型的语言结构。起点是,习语是违反凝聚结构的语义异常值,尤其是在当地情况下。量化以下属性并将其纳入离群检测算法中:1)与文字表达式或其他类型的搭配相比,缺乏组成性; 2)违反当地凝聚力的关系,因此它们往往与当地主题相距遥远; 3)虽然并非所有语义异常值都是习语,但非复合语义异常值可能是惯用的。 4)惯用性不是二进制财产;相反,习语属于连续体,从组成到部分无法分析到完全非构成。这项研究有助于对惯用语言的更好理解,再到对这种现象的计算处理,以及创造高质量的高质量的,公开可用的语言资源,以供基于IDIO的公开语言资源,以促进机器学习和大数据科学的促进。其他好处包括有效的计算算法计算构图和大型语料库的局部性,有趣的新概括,以及对象征性语言的性质进行的新概括,以及培训一群本科生和研究生干部,从事困难的跨学科问题的高度实用工作。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Anna Feldman其他文献

WordPrep: Word-based Preposition Prediction Tool
WordPrep:基于单词的介词预测工具
Experiments in Cross-Language Morphological Annotation Transfer
跨语言形态注释迁移实验
  • DOI:
    10.1007/11671299_4
  • 发表时间:
    2006
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Anna Feldman;Jirka Hana;Chris Brew
  • 通讯作者:
    Chris Brew
Evaluating and automating the annotation of a learner corpus
评估和自动化学习者语料库的注释
  • DOI:
    10.1007/s10579-013-9226-3
  • 发表时间:
    2013
  • 期刊:
  • 影响因子:
    2.7
  • 作者:
    Alexandr Rosen;Jirka Hana;Barbora Stindlová;Anna Feldman
  • 通讯作者:
    Anna Feldman
Legend at ArAIEval Shared Task: Persuasion Technique Detection using a Language-Agnostic Text Representation Model
ArAIEval 共享任务的传奇:使用与语言无关的文本表示模型进行说服技术检测
  • DOI:
    10.48550/arxiv.2310.09661
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    O. E. Ojo;O. O. Adebanji;Hiram Calvo;Damian O. Dieke;Olumuyiwa E. Ojo;S.E. Akinsanya;Tolulope O. Abiola;Anna Feldman
  • 通讯作者:
    Anna Feldman
Linguistic Fingerprints of Internet Censorship: the Case of SinaWeibo
互联网审查的语言指纹:以新浪微博为例

Anna Feldman的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Anna Feldman', 18)}}的其他基金

RI: Small: DaRE: Detection and Recognition of Euphemisms
RI:小:DaRE:委婉语的检测和识别
  • 批准号:
    2226006
  • 财政年份:
    2023
  • 资助金额:
    $ 17.65万
  • 项目类别:
    Standard Grant
Workshop on Natural Language Processing for Internet Freedom
自然语言处理促进互联网自由研讨会
  • 批准号:
    1828199
  • 财政年份:
    2018
  • 资助金额:
    $ 17.65万
  • 项目类别:
    Standard Grant
Student Support at the North American Association for Computational Linguistics Workshop on Computational Methods for Analysis of Narrative
北美计算语言学协会叙事分析计算方法研讨会的学生支持
  • 批准号:
    1523285
  • 财政年份:
    2015
  • 资助金额:
    $ 17.65万
  • 项目类别:
    Standard Grant
Undergraduate Research: Cross-Lingual Approaches to Morphosyntactic Tagging
本科生研究:形态句法标记的跨语言方法
  • 批准号:
    1033275
  • 财政年份:
    2010
  • 资助金额:
    $ 17.65万
  • 项目类别:
    Continuing Grant
RI:EAGER: A Montclair Group in Cognitive and Computational Aspects of Language and Speech Processing: An Exploration
RI:EAGER:蒙特克莱尔小组在语言和语音处理的认知和计算方面:探索
  • 批准号:
    1048406
  • 财政年份:
    2010
  • 资助金额:
    $ 17.65万
  • 项目类别:
    Standard Grant
RI: Small: RUI: Resource-light Morphosyntactic Tagging of Morphologically Complex Languages
RI:小:RUI:形态复杂语言的轻资源形态句法标记
  • 批准号:
    0916280
  • 财政年份:
    2009
  • 资助金额:
    $ 17.65万
  • 项目类别:
    Standard Grant
Workshop on Computational Approaches to Linguistic Creativity - Element 7495
语言创造力计算方法研讨会 - 元素 7495
  • 批准号:
    0906244
  • 财政年份:
    2009
  • 资助金额:
    $ 17.65万
  • 项目类别:
    Standard Grant

相似国自然基金

基于小增益理论的物联网聚合计算鲁棒稳定性分析
  • 批准号:
    62303112
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
基于鲁棒广义短路比的高比例新能源电力系统数据驱动随机小干扰稳定性分析
  • 批准号:
  • 批准年份:
    2020
  • 资助金额:
    24 万元
  • 项目类别:
    青年科学基金项目
Ibrutinib下调MDSCs逆转PD-1抗体治疗晚期非小细胞肺癌耐药的机制探究
  • 批准号:
    81702268
  • 批准年份:
    2017
  • 资助金额:
    20.0 万元
  • 项目类别:
    青年科学基金项目
基于小波-卡尔曼滤波的二维离散随机系统鲁棒H∞控制
  • 批准号:
    61603034
  • 批准年份:
    2016
  • 资助金额:
    20.0 万元
  • 项目类别:
    青年科学基金项目
密集无线网络分布式和鲁棒性传输理论与方法
  • 批准号:
    61571107
  • 批准年份:
    2015
  • 资助金额:
    57.0 万元
  • 项目类别:
    面上项目

相似海外基金

RI: Small: Collaborative Research: RUI: Influence Games: A Game-Theoretic Approach to Strategic Behavior in Networks
RI:小型:协作研究:RUI:影响游戏:网络中战略行为的博弈论方法
  • 批准号:
    1910203
  • 财政年份:
    2019
  • 资助金额:
    $ 17.65万
  • 项目类别:
    Standard Grant
RI: Small: RUI: Automated Reasoning about Time -- Methods and Analysis
RI:小:RUI:关于时间的自动推理——方法与分析
  • 批准号:
    1909739
  • 财政年份:
    2019
  • 资助金额:
    $ 17.65万
  • 项目类别:
    Standard Grant
RI: Small: Collaborative Research: RUI: Scalable Decentralized Planning in Open Multiagent Environments
RI:小型:协作研究:RUI:开放多代理环境中的可扩展去中心化规划
  • 批准号:
    1909513
  • 财政年份:
    2019
  • 资助金额:
    $ 17.65万
  • 项目类别:
    Standard Grant
RI: Small: RUI: Benchmarks and Algorithms for Mobile Image Matching
RI:小型:RUI:移动图像匹配的基准和算法
  • 批准号:
    1718376
  • 财政年份:
    2017
  • 资助金额:
    $ 17.65万
  • 项目类别:
    Standard Grant
RI: Small: RUI: Synthesis of Robust Artificial Systems by Adaptive Genetic Programming
RI:小型:RUI:通过自适应遗传编程合成稳健的人工系统
  • 批准号:
    1617087
  • 财政年份:
    2016
  • 资助金额:
    $ 17.65万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了