Reducing the Corpus Annotation Bottleneck for Natural Language Learning
减少自然语言学习的语料库标注瓶颈
基本信息
- 批准号:0208028
- 负责人:
- 金额:$ 50万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Continuing Grant
- 财政年份:2002
- 资助国家:美国
- 起止时间:2002-09-15 至 2006-08-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
Progress in the field of natural language processing (NLP) is currently limited, at least in part, by the speed with which new annotated corpora can be created. In addition, there is evidence that achieving the next level of performance in automated text understanding will require annotated training corpora that are orders of magnitude larger than those currently available. In short, there exists a corpus annotation bottleneck in building robust, accurate NLP system components. The PI proposes, therefore, to investigate machine learning paradigms that will significantly reduce human annotation costs while maintaining or improving the accuracy of the natural language learning algorithms that are trained on the acquired corpora. The project will (1) study the application of active learning (Cohn et al., 1994) and weakly supervised bootstrapping algorithms like co-training (Blum & Mitchell, 1998) on a set of representative problems in natural language processing, (2) identify the benefits and limitations of these approaches for reducing the manual annotation burden during the creation of large training corpora for natural language learning, and (3) develop a cooperative learning framework (Pierce & Cardie, 2002) that combines active and weakly supervised learning in an attempt to more effectively interleave manual and automated linguistic annotation efforts.
自然语言处理领域(NLP)领域的进展至少部分受到创建新注释的Corpora的速度的限制。此外,有证据表明,在自动化文本理解中达到了下一个级别的表现,需要带注释的培训语料库,这些培训语料库比当前可用的数量级要大。简而言之,在构建坚固,准确的NLP系统组件中存在语料库注释瓶颈。因此,PI建议调查机器学习范例,以显着降低人类注释成本,同时维持或提高对获得的Corpora培训的自然语言学习算法的准确性。该项目将(1)研究主动学习的应用(Cohn等,1994)和弱监督的引导算法(例如共同培训)(Blum&Mitchell,1998)在自然语言处理中的一系列代表性问题上((2)确定这些方法的益处和限制在自然语言处理中的代表性问题,并确定了这些方法的培训,以减少培训的培训,以减少工具的培训,以减少群体的创建工作(3)。 (Pierce&Cardie,2002)结合了主动和弱监督的学习,以更有效地交织手动和自动化的语言注释工作。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Claire Cardie其他文献
Using natural language processing to improve eRulemaking: project highlight
使用自然语言处理改进电子规则制定:项目亮点
- DOI:
10.1145/1146598.1146651 - 发表时间:
2006 - 期刊:
- 影响因子:0
- 作者:
Claire Cardie;Cynthia Farina;Thomas Bruce - 通讯作者:
Thomas Bruce
Embedded machine learning systems for natural language processing: a general framework
- DOI:
10.1007/3-540-60925-3_56 - 发表时间:
1995 - 期刊:
- 影响因子:0
- 作者:
Claire Cardie - 通讯作者:
Claire Cardie
BeSt: The Belief and Sentiment Corpus
最佳:信念和情感语料库
- DOI:
- 发表时间:
2022 - 期刊:
- 影响因子:0
- 作者:
Jennifer Tracey;Owen Rambow;Michael Arrigo;Claire Cardie;Adam Dalton;H. Dang;Mona T. Diab;Bonnie Dorr;Louise Guthrie;M. Markowska;S. Muresan;Vinodkumar Prabhakaran;Samira Shaikh;T. Strzalkowski;Janyce Wiebe - 通讯作者:
Janyce Wiebe
Using Cognitive Biases to Guide Feature Set Selection
使用认知偏差来指导特征集选择
- DOI:
- 发表时间:
1992 - 期刊:
- 影响因子:0
- 作者:
Claire Cardie - 通讯作者:
Claire Cardie
A Cognitive Bias Approach to Feature Selection and Weighting for Case-Based Learners
基于案例的学习者的特征选择和加权的认知偏差方法
- DOI:
- 发表时间:
2000 - 期刊:
- 影响因子:0
- 作者:
Claire Cardie - 通讯作者:
Claire Cardie
Claire Cardie的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Claire Cardie', 18)}}的其他基金
RI: Small: Collaborative Research: Computational Methods for Argument Mining: Extraction, Aggregation, and Generation
RI:小型:协作研究:参数挖掘的计算方法:提取、聚合和生成
- 批准号:
1815455 - 财政年份:2018
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
HCC: Large: Social-Computational Support of Civic Engagement in Public Policymaking
HCC:大:公民参与公共政策制定的社会计算支持
- 批准号:
1314778 - 财政年份:2013
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
SoCS: Collaborative Research: Leveraging Others' Insights to Improve Collaborative Analysis
SoCS:协作研究:利用他人的见解来改进协作分析
- 批准号:
0968450 - 财政年份:2010
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
Natural Language Processing Support for eRulemaking
对电子规则制定的自然语言处理支持
- 批准号:
0535099 - 财政年份:2005
- 资助金额:
$ 50万 - 项目类别:
Continuing Grant
POWRE-Integrating Natural Language Processing and Information Retrieval for Intelligent Text-Processing
POWRE-集成自然语言处理和信息检索以实现智能文本处理
- 批准号:
0074896 - 财政年份:2000
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
Knowledge Acquisition for Natural Language Understanding
自然语言理解的知识获取
- 批准号:
9624639 - 财政年份:1996
- 资助金额:
$ 50万 - 项目类别:
Continuing Grant
Computational Aspects of Cognitive Science Focus Area: Human Computation
认知科学的计算方面重点领域:人类计算
- 批准号:
9454149 - 财政年份:1994
- 资助金额:
$ 50万 - 项目类别:
Continuing Grant
相似国自然基金
面向中亚的多语种平行语料库自动构建方法研究
- 批准号:62306263
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
基于大规模语料库的藏语预训练语言模型研究
- 批准号:
- 批准年份:2022
- 资助金额:33 万元
- 项目类别:地区科学基金项目
基于大规模语料库的藏语预训练语言模型研究
- 批准号:62266037
- 批准年份:2022
- 资助金额:33.00 万元
- 项目类别:地区科学基金项目
运用语言知识分布模型构建基于具身语义关联机制的数据库-语料库-词汇学习的AI优化系统
- 批准号:
- 批准年份:2020
- 资助金额:48 万元
- 项目类别:
面向语音合成的神经网络声码器研究
- 批准号:61871358
- 批准年份:2018
- 资助金额:63.0 万元
- 项目类别:面上项目
相似海外基金
Building an Error-Annotated Corpus of Learner Indonesian and Developing an Automated Writing Support for Japanese Students Using Deep Linguistic Indonesian Parsers
建立一个错误注释的印尼语学习者语料库,并使用深度语言印尼语解析器为日本学生开发自动写作支持
- 批准号:
23K12235 - 财政年份:2023
- 资助金额:
$ 50万 - 项目类别:
Grant-in-Aid for Early-Career Scientists
Mapping human brain cell type-specific isoform usage in ASD
绘制 ASD 中人脑细胞类型特异性亚型的使用情况
- 批准号:
10433311 - 财政年份:2022
- 资助金额:
$ 50万 - 项目类别:
Mapping human brain cell type-specific isoform usage in ASD
绘制 ASD 中人脑细胞类型特异性亚型的使用情况
- 批准号:
10620755 - 财政年份:2022
- 资助金额:
$ 50万 - 项目类别:
Argumentative Writing Support System for EFL Learners
英语学习者议论文写作支持系统
- 批准号:
20J13239 - 财政年份:2020
- 资助金额:
$ 50万 - 项目类别:
Grant-in-Aid for JSPS Fellows
Annotation of syntactic and semantic information for a corpus of Old Japanese
古日语语料库的句法和语义信息注释
- 批准号:
18K00560 - 财政年份:2018
- 资助金额:
$ 50万 - 项目类别:
Grant-in-Aid for Scientific Research (C)