CAREER: Achieving Quality Information Extraction from Scientific Documents with Heterogeneous Weak Supervisions
职业:通过异构弱监督实现科学文档中的质量信息提取
基本信息
- 批准号:2237831
- 负责人:
- 金额:$ 49.99万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Standard Grant
- 财政年份:2023
- 资助国家:美国
- 起止时间:2023-07-01 至 2028-06-30
- 项目状态:未结题
- 来源:
- 关键词:
项目摘要
The volume and breadth of the scientific literature is growing at an astonishing pace, making it challenging for researchers to keep up. Information extraction systems that can automatically extract structured information from this unstructured text are in high demand. Benefits from automated information extraction (IE) are multi-fold: it is easier to search and organize scientific documents, it results in efficiency gains for curators, and it reduces curation costs, among others. Although supervised deep learning-based IE methods achieve curation-level performance on some applications, large training datasets with accurate annotations are necessary to achieve these results. The goal of this project is to develop an adaptable and flexible information extraction framework that learns from existing resources and does not rely on costly and time-consuming expert annotations, and bridges the performance gap in real applications addressing extraction quality concerns and unique requirements of IE tasks in the scientific literature. Success in this project will benefit many domains by providing mechanisms for processing massive unlabeled textual datasets, speeding up literature understanding and the curation process, and promoting new scientific discoveries. The investigator will engage in departmental Broadening Participation in Computing (BPC) activities and create educational materials based on results from this project for outreach programs to local k-12 schools and communities.This project is focused on three complementary research thrusts, each of which addresses one key obstacle of information extraction on scientific documents: 1) advancing IE models to work with heterogeneous supervisions such as distant supervision and indirect supervision while taking advantage of all existing resources, 2) developing new semi-open information extraction tasks to extract detailed context and uncertainties at the document level, and 3) developing a novel learn-from-mistake paradigm that integrates first-order logic rules and new annotations from domain users to refine the IE models and results. The proposed research will address a variety of problems drawn from different information extraction settings, which will lead to new principles, methods, and technologies for machine learning, data mining, and natural language processing. The research thrusts will be applied to extract information from STEM textbooks to construct concept networks for education purposes.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
科学文献的数量和广度正在以惊人的速度增长,这使得研究人员难以跟上。人们对能够从非结构化文本中自动提取结构化信息的信息提取系统有着很高的需求。自动信息提取 (IE) 的好处是多方面的:更容易搜索和组织科学文档,提高策展人的效率,并降低策展成本等。尽管基于监督深度学习的 IE 方法在某些应用程序上实现了管理级性能,但需要具有准确注释的大型训练数据集才能实现这些结果。该项目的目标是开发一个适应性强且灵活的信息提取框架,该框架可以从现有资源中学习,而不依赖于昂贵且耗时的专家注释,并弥合实际应用程序中的性能差距,解决提取质量问题和 IE 的独特要求科学文献中的任务。该项目的成功将通过提供处理大量未标记文本数据集的机制、加快文献理解和管理过程以及促进新的科学发现来使许多领域受益。研究员将参与部门扩大计算参与 (BPC) 活动,并根据该项目的结果创建教育材料,用于当地 k-12 学校和社区的推广计划。该项目侧重于三个互补的研究重点,每个重点都涉及科学文献信息提取的一个主要障碍:1)在利用所有现有资源的同时,推进 IE 模型以处理异构监督,例如远程监督和间接监督,2)开发新的半开放信息提取任务以提取详细的上下文和信息的不确定性文档级别;3)开发一种新颖的从错误中学习的范例,该范例集成一阶逻辑规则和来自领域用户的新注释,以细化 IE 模型和结果。拟议的研究将解决来自不同信息提取设置的各种问题,这将为机器学习、数据挖掘和自然语言处理带来新的原理、方法和技术。研究重点将应用于从 STEM 教科书中提取信息,构建用于教育目的的概念网络。该奖项反映了 NSF 的法定使命,并通过使用基金会的智力价值和更广泛的影响审查标准进行评估,被认为值得支持。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Qi Li其他文献
Effect of antisense oligodeoxynucleotide targeted against NF-κB/P65 on cell proliferation and tumorigenesis of gastric cancer
NF-κB/P65反义寡核苷酸对胃癌细胞增殖及致瘤的影响
- DOI:
10.1007/s10238-011-0174-1 - 发表时间:
2013-02-01 - 期刊:
- 影响因子:4.6
- 作者:
Qi Li;Yong Gao;Zeng;Hong Jiang;Ying‐yan Yu;Zheng‐gang Zhu - 通讯作者:
Zheng‐gang Zhu
MONEY GROWTH AND INFLATION IN THE UNITED STATES
美国的货币增长和通货膨胀
- DOI:
10.1017/s1365100507050328 - 发表时间:
2007-01-18 - 期刊:
- 影响因子:0.9
- 作者:
Lance J. Bachmeier;Sittisak Leelahanon;Qi Li - 通讯作者:
Qi Li
CAIP system for vision-based on-machine measurement
用于基于视觉的机器测量的 CAIP 系统
- DOI:
10.1117/12.905508 - 发表时间:
2011-11-15 - 期刊:
- 影响因子:0
- 作者:
Rui;R. Lu;Yanqiong Shi;Qi Li;Jingtao Dong;Ning Liu - 通讯作者:
Ning Liu
Patch-Based Approach for the Fusion of Low-Light Image Pairs
基于补丁的低光图像对融合方法
- DOI:
10.1109/siprocess.2018.8600514 - 发表时间:
2018-07-01 - 期刊:
- 影响因子:0
- 作者:
Guangxia Wang;H. Feng;Qi Li;Yue - 通讯作者:
Yue
PCLF: A Practical Cross-Layer Fast Handover Mechanism in IEEE 802.11 WLANs
PCLF:IEEE 802.11 WLAN 中实用的跨层快速切换机制
- DOI:
10.1109/icc.2010.5501863 - 发表时间:
2010-05-23 - 期刊:
- 影响因子:0
- 作者:
Yilin Song;Min Liu;Anfu Zhou;Zhongcheng Li;Qi Li - 通讯作者:
Qi Li
Qi Li的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Qi Li', 18)}}的其他基金
AccelNet-Design: A Global Network of Networks of Integrated Urban Services (GNNIUS) for Healthy and Smart Cities
AccelNet-Design:面向健康和智慧城市的全球综合城市服务网络 (GNNIUS)
- 批准号:
2301858 - 财政年份:2023
- 资助金额:
$ 49.99万 - 项目类别:
Standard Grant
CAREER: Multi-Scalar Transport and Similarity in the Urban Boundary Layer
职业:城市边界层的多标量交通和相似性
- 批准号:
2143664 - 财政年份:2022
- 资助金额:
$ 49.99万 - 项目类别:
Continuing Grant
Collaborative Research: CAS-MNP--Precursors of Long-Distance Aerial Transport of Microplastics from Urban Environments
合作研究:CAS-MNP——城市环境中长距离空中运输微塑料的前体
- 批准号:
2028644 - 财政年份:2020
- 资助金额:
$ 49.99万 - 项目类别:
Standard Grant
Collaborative Research: Geoengineering of Urban Green Infrastructure to Improve Outdoor Livability
合作研究:城市绿色基础设施地球工程,提高户外宜居性
- 批准号:
2028842 - 财政年份:2020
- 资助金额:
$ 49.99万 - 项目类别:
Standard Grant
III: Small: Collaborative Research: Algorithms, systems, and theories for exploiting data dependencies in crowdsourcing
III:小型:协作研究:在众包中利用数据依赖性的算法、系统和理论
- 批准号:
2007941 - 财政年份:2020
- 资助金额:
$ 49.99万 - 项目类别:
Standard Grant
Design and Characterization of Two-Dimensional Electron Gas with Strong Spin-Orbit Coupling Based on Transition Metal Oxides
基于过渡金属氧化物的强自旋轨道耦合二维电子气的设计与表征
- 批准号:
1905833 - 财政年份:2019
- 资助金额:
$ 49.99万 - 项目类别:
Standard Grant
Multiferroic Tunnel Junction with Active Dual Layer Barrier
具有主动双层势垒的多铁性隧道结
- 批准号:
1411166 - 财政年份:2014
- 资助金额:
$ 49.99万 - 项目类别:
Standard Grant
Interfacial Electromagnetic Coupling in Multiferroic Tunnel Junctions
多铁性隧道结中的界面电磁耦合
- 批准号:
1207474 - 财政年份:2012
- 资助金额:
$ 49.99万 - 项目类别:
Continuing Grant
III: Small: An Automatic Framework for Processing Drosophila Embryonic Images
III:小型:处理果蝇胚胎图像的自动框架
- 批准号:
1016668 - 财政年份:2010
- 资助金额:
$ 49.99万 - 项目类别:
Standard Grant
Study of Multiferroic Tunnel Junctions
多铁性隧道结的研究
- 批准号:
0907604 - 财政年份:2009
- 资助金额:
$ 49.99万 - 项目类别:
Standard Grant
相似国自然基金
中国牧区绿色低碳高质量发展的实现机制研究——基于技术和政策双轮驱动视角
- 批准号:72373059
- 批准年份:2023
- 资助金额:41 万元
- 项目类别:面上项目
农业科技资源配置优化助推农业高质量发展的作用机理、效应识别及实现路径研究
- 批准号:72264008
- 批准年份:2022
- 资助金额:28 万元
- 项目类别:地区科学基金项目
面向高质量发展的生态系统健康与人类福祉关系及实现机制研究--以新疆玛纳斯河流域为例
- 批准号:
- 批准年份:2021
- 资助金额:56 万元
- 项目类别:
高质量发展阶段制造业绿色增长动力机制及实现路径研究
- 批准号:
- 批准年份:2020
- 资助金额:24 万元
- 项目类别:青年科学基金项目
高质量发展下区位导向性政策的产业升级效应:实现机制与经验辨识
- 批准号:
- 批准年份:2020
- 资助金额:48 万元
- 项目类别:面上项目
相似海外基金
Achieving Sustained Control of Inflammation to Prevent Post-Traumatic Osteoarthritis (PTOA)
实现炎症的持续控制以预防创伤后骨关节炎 (PTOA)
- 批准号:
10641225 - 财政年份:2023
- 资助金额:
$ 49.99万 - 项目类别:
CAREER: Achieving Quality Crowdsourcing across Tasks, Data Scales, and Operational Settings
职业:实现跨任务、数据规模和操作设置的高质量众包
- 批准号:
1253413 - 财政年份:2013
- 资助金额:
$ 49.99万 - 项目类别:
Continuing Grant
Achieving Success for Women & Academic Medicine: A Randomized Multi-level Trial
为女性取得成功
- 批准号:
8134815 - 财政年份:2009
- 资助金额:
$ 49.99万 - 项目类别:
Achieving Success for Women & Academic Medicine: A Randomized Multi-level Trial
为女性取得成功
- 批准号:
8334033 - 财政年份:2009
- 资助金额:
$ 49.99万 - 项目类别:
Achieving Success for Women & Academic Medicine: A Randomized Multi-level Trial
为女性取得成功
- 批准号:
7713918 - 财政年份:2009
- 资助金额:
$ 49.99万 - 项目类别: