RI: Small: RUI: AIR: Automatic Idiom Recognition

RI:小:RUI:AIR:自动成语识别

基本信息

  • 批准号:
    1319846
  • 负责人:
  • 金额:
    $ 17.65万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2013
  • 资助国家:
    美国
  • 起止时间:
    2013-08-01 至 2018-01-31
  • 项目状态:
    已结题

项目摘要

The main goal of this research project is to develop a language independent method for automatic idiom recognition. Idiomatic expressions, such as 'a blessing in disguise' and 'kick the bucket' are plentiful in everyday language, though they remain mysterious, as it is not clear exactly how people learn and understand them. There is no single agreed-upon definition of idiom that covers all members of this class, but idioms tend to be relatively fixed in grammatical form and meaning, but with relatively little predictability in the relation between form and meaning. Also, many idiomatic expressions can appear with both literal, i.e. fully predictable, interpretations given their form -- compare 'The little girl made a face at her mother.' (idiomatic) vs. 'The little girl made a face on the snowman using a carrot and two buttons.' (literal) As a result, idioms present great challenges for a variety of natural language processing applications, including machine translation systems, which often do not detect idiomatic language. To address these challenges, an algorithm is proposed that neither relies on target idiom types, lexicons, or large manually annotated corpora, nor limits the search space by a particular type of linguistic construction. The starting point is that idioms are semantic outliers that violate cohesive structure, especially in local contexts. The following properties are quantified and are incorporated into the outlier detection algorithm: 1) lack of compositionality comparing to literal expressions or other types of collocations; 2) violation of local cohesive ties, so that they tend to be semantically distant from the local topics; 3) while not all semantic outliers are idioms, non-compositional semantic outliers are likely to be idiomatic; 4) idiomaticity is not a binary property; rather, idioms fall on the continuum from being compositional to being partly unanalyzable to completely non-compositional.This research contributes to the better understanding of idiomatic language, to the computational treatment of such phenomena and, with the creation of high quality, publicly available linguistic resources annotated for idioms, to the facilitation of machine learning research and big data science. Additional benefits include efficient algorithms for computing compositionality and topicality from large corpora, interesting new generalizations about the nature of figurative language, and the training of a cadre of undergraduate and graduate students in highly practical work on a difficult interdisciplinary problem.
该研究项目的主要目标是开发一种独立于语言的自动习语识别方法。诸如“因祸得福”和“踢完桶”等惯用语在日常语言中大量存在,但它们仍然很神秘,因为人们到底是如何学习和理解它们的尚不清楚。没有一个一致同意的习语定义可以涵盖这一类的所有成员,但习语在语法形式和含义上往往相对固定,但在形式和含义之间的关系方面却具有相对较小的可预测性。此外,许多惯用表达都可以根据其形式以字面意思(即完全可预测的)解释出现 - 比较“小女孩对她母亲做了个鬼脸”。 (惯用语)与“小女孩用一根胡萝卜和两颗纽扣在雪人身上做了一张脸”。 (字面意思)因此,惯用语给各种自然语言处理应用程序带来了巨大的挑战,包括机器翻译系统,它们通常不检测惯用语。为了解决这些挑战,提出了一种算法,该算法既不依赖于目标习语类型、词典或大型手动注释语料库,也不通过特定类型的语言结构来限制搜索空间。出发点是习语是违反内聚结构的语义异常值,尤其是在本地上下文中。以下属性被量化并纳入异常值检测算法中:1)与文字表达式或其他类型的搭配相比缺乏组合性; 2)破坏局部的衔接关系,使得它们在语义上往往与局部主题相距甚远; 3)虽然并非所有语义异常值都是习语,但非组合语义异常值很可能是惯用语; 4)惯用性不是二元属性;相反,习语属于从组合到部分不可分析再到完全不可组合的连续体。这项研究有助于更好地理解惯用语言,对此类现象进行计算处理,并通过创建高质量的、公开可用的语言学为习语注释的资源,以促进机器学习研究和大数据科学。其他好处包括从大型语料库中计算组合性和主题性的有效算法、关于比喻语言本质的有趣的新概括,以及对本科生和研究生骨干人员进行高度实际工作的培训,以解决困难的跨学科问题。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Anna Feldman其他文献

WordPrep: Word-based Preposition Prediction Tool
WordPrep:基于单词的介词预测工具
Experiments in Cross-Language Morphological Annotation Transfer
跨语言形态注释迁移实验
  • DOI:
    10.1007/11671299_4
  • 发表时间:
    2006
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Anna Feldman;Jirka Hana;Chris Brew
  • 通讯作者:
    Chris Brew
Evaluating and automating the annotation of a learner corpus
评估和自动化学习者语料库的注释
  • DOI:
    10.1007/s10579-013-9226-3
  • 发表时间:
    2013
  • 期刊:
  • 影响因子:
    2.7
  • 作者:
    Alexandr Rosen;Jirka Hana;Barbora Stindlová;Anna Feldman
  • 通讯作者:
    Anna Feldman
Legend at ArAIEval Shared Task: Persuasion Technique Detection using a Language-Agnostic Text Representation Model
ArAIEval 共享任务的传奇:使用与语言无关的文本表示模型进行说服技术检测
  • DOI:
    10.48550/arxiv.2310.09661
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    O. E. Ojo;O. O. Adebanji;Hiram Calvo;Damian O. Dieke;Olumuyiwa E. Ojo;S.E. Akinsanya;Tolulope O. Abiola;Anna Feldman
  • 通讯作者:
    Anna Feldman
Linguistic Fingerprints of Internet Censorship: the Case of SinaWeibo
互联网审查的语言指纹:以新浪微博为例

Anna Feldman的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Anna Feldman', 18)}}的其他基金

RI: Small: DaRE: Detection and Recognition of Euphemisms
RI:小:DaRE:委婉语的检测和识别
  • 批准号:
    2226006
  • 财政年份:
    2023
  • 资助金额:
    $ 17.65万
  • 项目类别:
    Standard Grant
Workshop on Natural Language Processing for Internet Freedom
自然语言处理促进互联网自由研讨会
  • 批准号:
    1828199
  • 财政年份:
    2018
  • 资助金额:
    $ 17.65万
  • 项目类别:
    Standard Grant
Student Support at the North American Association for Computational Linguistics Workshop on Computational Methods for Analysis of Narrative
北美计算语言学协会叙事分析计算方法研讨会的学生支持
  • 批准号:
    1523285
  • 财政年份:
    2015
  • 资助金额:
    $ 17.65万
  • 项目类别:
    Standard Grant
Undergraduate Research: Cross-Lingual Approaches to Morphosyntactic Tagging
本科生研究:形态句法标记的跨语言方法
  • 批准号:
    1033275
  • 财政年份:
    2010
  • 资助金额:
    $ 17.65万
  • 项目类别:
    Continuing Grant
RI:EAGER: A Montclair Group in Cognitive and Computational Aspects of Language and Speech Processing: An Exploration
RI:EAGER:蒙特克莱尔小组在语言和语音处理的认知和计算方面:探索
  • 批准号:
    1048406
  • 财政年份:
    2010
  • 资助金额:
    $ 17.65万
  • 项目类别:
    Standard Grant
RI: Small: RUI: Resource-light Morphosyntactic Tagging of Morphologically Complex Languages
RI:小:RUI:形态复杂语言的轻资源形态句法标记
  • 批准号:
    0916280
  • 财政年份:
    2009
  • 资助金额:
    $ 17.65万
  • 项目类别:
    Standard Grant
Workshop on Computational Approaches to Linguistic Creativity - Element 7495
语言创造力计算方法研讨会 - 元素 7495
  • 批准号:
    0906244
  • 财政年份:
    2009
  • 资助金额:
    $ 17.65万
  • 项目类别:
    Standard Grant

相似国自然基金

单细胞分辨率下的石杉碱甲介导小胶质细胞极化表型抗缺血性脑卒中的机制研究
  • 批准号:
    82304883
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
小分子无半胱氨酸蛋白调控生防真菌杀虫活性的作用与机理
  • 批准号:
    32372613
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目
诊疗一体化PS-Hc@MB协同训练介导脑小血管病康复的作用及机制研究
  • 批准号:
    82372561
  • 批准年份:
    2023
  • 资助金额:
    49 万元
  • 项目类别:
    面上项目
非小细胞肺癌MECOM/HBB通路介导血红素代谢异常并抑制肿瘤起始细胞铁死亡的机制研究
  • 批准号:
    82373082
  • 批准年份:
    2023
  • 资助金额:
    49 万元
  • 项目类别:
    面上项目
FATP2/HILPDA/SLC7A11轴介导肿瘤相关中性粒细胞脂代谢重编程影响非小细胞肺癌放疗免疫的作用和机制研究
  • 批准号:
    82373304
  • 批准年份:
    2023
  • 资助金额:
    49 万元
  • 项目类别:
    面上项目

相似海外基金

RI: Small: Collaborative Research: RUI: Influence Games: A Game-Theoretic Approach to Strategic Behavior in Networks
RI:小型:协作研究:RUI:影响游戏:网络中战略行为的博弈论方法
  • 批准号:
    1910203
  • 财政年份:
    2019
  • 资助金额:
    $ 17.65万
  • 项目类别:
    Standard Grant
RI: Small: RUI: Automated Reasoning about Time -- Methods and Analysis
RI:小:RUI:关于时间的自动推理——方法与分析
  • 批准号:
    1909739
  • 财政年份:
    2019
  • 资助金额:
    $ 17.65万
  • 项目类别:
    Standard Grant
RI: Small: Collaborative Research: RUI: Scalable Decentralized Planning in Open Multiagent Environments
RI:小型:协作研究:RUI:开放多代理环境中的可扩展去中心化规划
  • 批准号:
    1909513
  • 财政年份:
    2019
  • 资助金额:
    $ 17.65万
  • 项目类别:
    Standard Grant
RI: Small: RUI: Benchmarks and Algorithms for Mobile Image Matching
RI:小型:RUI:移动图像匹配的基准和算法
  • 批准号:
    1718376
  • 财政年份:
    2017
  • 资助金额:
    $ 17.65万
  • 项目类别:
    Standard Grant
RI: Small: RUI: Synthesis of Robust Artificial Systems by Adaptive Genetic Programming
RI:小型:RUI:通过自适应遗传编程合成稳健的人工系统
  • 批准号:
    1617087
  • 财政年份:
    2016
  • 资助金额:
    $ 17.65万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了