CAREER: Achieving Quality Information Extraction from Scientific Documents with Heterogeneous Weak Supervisions
职业:通过异构弱监督实现科学文档中的质量信息提取
基本信息
- 批准号:2237831
- 负责人:
- 金额:$ 49.99万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Standard Grant
- 财政年份:2023
- 资助国家:美国
- 起止时间:2023-07-01 至 2028-06-30
- 项目状态:未结题
- 来源:
- 关键词:
项目摘要
The volume and breadth of the scientific literature is growing at an astonishing pace, making it challenging for researchers to keep up. Information extraction systems that can automatically extract structured information from this unstructured text are in high demand. Benefits from automated information extraction (IE) are multi-fold: it is easier to search and organize scientific documents, it results in efficiency gains for curators, and it reduces curation costs, among others. Although supervised deep learning-based IE methods achieve curation-level performance on some applications, large training datasets with accurate annotations are necessary to achieve these results. The goal of this project is to develop an adaptable and flexible information extraction framework that learns from existing resources and does not rely on costly and time-consuming expert annotations, and bridges the performance gap in real applications addressing extraction quality concerns and unique requirements of IE tasks in the scientific literature. Success in this project will benefit many domains by providing mechanisms for processing massive unlabeled textual datasets, speeding up literature understanding and the curation process, and promoting new scientific discoveries. The investigator will engage in departmental Broadening Participation in Computing (BPC) activities and create educational materials based on results from this project for outreach programs to local k-12 schools and communities.This project is focused on three complementary research thrusts, each of which addresses one key obstacle of information extraction on scientific documents: 1) advancing IE models to work with heterogeneous supervisions such as distant supervision and indirect supervision while taking advantage of all existing resources, 2) developing new semi-open information extraction tasks to extract detailed context and uncertainties at the document level, and 3) developing a novel learn-from-mistake paradigm that integrates first-order logic rules and new annotations from domain users to refine the IE models and results. The proposed research will address a variety of problems drawn from different information extraction settings, which will lead to new principles, methods, and technologies for machine learning, data mining, and natural language processing. The research thrusts will be applied to extract information from STEM textbooks to construct concept networks for education purposes.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
科学文献的数量和广度正在以惊人的速度增长,这使研究人员保持挑战。可以自动从此非结构化文本中提取结构化信息的信息提取系统需求很高。自动化信息提取(IE)的好处是多重的:搜索和组织科学文档更容易,从而为策展人带来效率的提高,并且降低了策展成本等。尽管有监督的基于深度学习的IE方法在某些应用程序上实现了策划级别的性能,但必须进行准确注释的大型培训数据集以实现这些结果。该项目的目的是开发一个适应性且灵活的信息提取框架,该框架从现有资源中学习,不依赖于昂贵且耗时的专家注释,并在科学文献中解决了提取质量问题和IE任务的独特要求的实际应用程序中的性能差距。该项目的成功将通过提供处理大量未标记的文本数据集,加快文学理解和策展过程并促进新的科学发现的机制来使许多领域受益。研究人员将根据该项目的结果来开展部门扩大计算活动(BPC)活动的参与并创建教育材料,向本地K-112学校和社区进行外展计划。该项目侧重于三个互补的研究推力,每项都针对各个信息的障碍,涉及有关科学范围的一项关键障碍,以促进科学范围内的分类范围,以促进与现有的IE E EE型模型,并将其分类范围内的IE EE索引IE构图,并将其范围用于既定的IE EE范围。 2)开发新的半开放信息提取任务,以在文档级别提取详细的上下文和不确定性,3)开发一种新颖的学习范围,从范围内整合了一阶逻辑规则和域用户的新注释,以完善IE模型和结果。拟议的研究将解决来自不同信息提取设置的各种问题,这将导致用于机器学习,数据挖掘和自然语言处理的新原理,方法和技术。该研究的推力将用于从STEM教科书中提取信息,以构建用于教育目的的概念网络。该奖项反映了NSF的法定任务,并认为使用基金会的知识分子优点和更广泛的影响评估标准,认为值得通过评估来获得支持。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Qi Li其他文献
Competing orders in s-wave and p -wave superconductors
s 波和 p 波超导体的竞争订单
- DOI:
- 发表时间:
2008 - 期刊:
- 影响因子:0
- 作者:
Qi Li - 通讯作者:
Qi Li
Improving the representation of convective heat transfer in an urban canopy model
改进城市冠层模型中对流换热的表示
- DOI:
- 发表时间:
2018 - 期刊:
- 影响因子:0
- 作者:
Qi Li;Jiachuan Yang;Zhi;E. Bou‐Zeid - 通讯作者:
E. Bou‐Zeid
Delay Allograft Rejection in Lymphopenic Hosts by Downregulating the Homeostatic Proliferation of CD 8 + T Cells
通过下调 CD 8 T 细胞的稳态增殖来延迟淋巴细胞减少宿主的同种异体移植排斥
- DOI:
- 发表时间:
2010 - 期刊:
- 影响因子:0
- 作者:
D. Zecher;Qi Li;M. Oberbarnscheidt;A. Demetris;W. Shlomchik;D. Rothstein;Fadi G Lakkis - 通讯作者:
Fadi G Lakkis
Try before You Buy: Privacy-preserving Data Evaluation on Cloud-based Machine Learning Data Marketplace
先试后买:基于云的机器学习数据市场上的隐私保护数据评估
- DOI:
- 发表时间:
2021 - 期刊:
- 影响因子:0
- 作者:
Qiyang Song;Jiahao Cao;Kun Sun;Qi Li;Ke Xu - 通讯作者:
Ke Xu
Microstrip-to- Waveguide Transition with Bias Tee for Photodiode Packaging at W-Band
用于 W 波段光电二极管封装的带偏置 T 形件的微带到波导过渡
- DOI:
- 发表时间:
2022 - 期刊:
- 影响因子:0
- 作者:
C. Nie;Qi Li;Yuan Yao;Ting Zhang;Yaohui Yang - 通讯作者:
Yaohui Yang
Qi Li的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Qi Li', 18)}}的其他基金
AccelNet-Design: A Global Network of Networks of Integrated Urban Services (GNNIUS) for Healthy and Smart Cities
AccelNet-Design:面向健康和智慧城市的全球综合城市服务网络 (GNNIUS)
- 批准号:
2301858 - 财政年份:2023
- 资助金额:
$ 49.99万 - 项目类别:
Standard Grant
CAREER: Multi-Scalar Transport and Similarity in the Urban Boundary Layer
职业:城市边界层的多标量交通和相似性
- 批准号:
2143664 - 财政年份:2022
- 资助金额:
$ 49.99万 - 项目类别:
Continuing Grant
III: Small: Collaborative Research: Algorithms, systems, and theories for exploiting data dependencies in crowdsourcing
III:小型:协作研究:在众包中利用数据依赖性的算法、系统和理论
- 批准号:
2007941 - 财政年份:2020
- 资助金额:
$ 49.99万 - 项目类别:
Standard Grant
Collaborative Research: Geoengineering of Urban Green Infrastructure to Improve Outdoor Livability
合作研究:城市绿色基础设施地球工程,提高户外宜居性
- 批准号:
2028842 - 财政年份:2020
- 资助金额:
$ 49.99万 - 项目类别:
Standard Grant
Collaborative Research: CAS-MNP--Precursors of Long-Distance Aerial Transport of Microplastics from Urban Environments
合作研究:CAS-MNP——城市环境中长距离空中运输微塑料的前体
- 批准号:
2028644 - 财政年份:2020
- 资助金额:
$ 49.99万 - 项目类别:
Standard Grant
Design and Characterization of Two-Dimensional Electron Gas with Strong Spin-Orbit Coupling Based on Transition Metal Oxides
基于过渡金属氧化物的强自旋轨道耦合二维电子气的设计与表征
- 批准号:
1905833 - 财政年份:2019
- 资助金额:
$ 49.99万 - 项目类别:
Standard Grant
Multiferroic Tunnel Junction with Active Dual Layer Barrier
具有主动双层势垒的多铁性隧道结
- 批准号:
1411166 - 财政年份:2014
- 资助金额:
$ 49.99万 - 项目类别:
Standard Grant
Interfacial Electromagnetic Coupling in Multiferroic Tunnel Junctions
多铁性隧道结中的界面电磁耦合
- 批准号:
1207474 - 财政年份:2012
- 资助金额:
$ 49.99万 - 项目类别:
Continuing Grant
III: Small: An Automatic Framework for Processing Drosophila Embryonic Images
III:小型:处理果蝇胚胎图像的自动框架
- 批准号:
1016668 - 财政年份:2010
- 资助金额:
$ 49.99万 - 项目类别:
Standard Grant
Study of Multiferroic Tunnel Junctions
多铁性隧道结的研究
- 批准号:
0907604 - 财政年份:2009
- 资助金额:
$ 49.99万 - 项目类别:
Standard Grant
相似国自然基金
中国牧区绿色低碳高质量发展的实现机制研究——基于技术和政策双轮驱动视角
- 批准号:72373059
- 批准年份:2023
- 资助金额:41 万元
- 项目类别:面上项目
脱贫地区义务教育质量提升对代际收入流动的促进效应及实现机制
- 批准号:72304094
- 批准年份:2023
- 资助金额:30.00 万元
- 项目类别:青年科学基金项目
农业科技资源配置优化助推农业高质量发展的作用机理、效应识别及实现路径研究
- 批准号:72264008
- 批准年份:2022
- 资助金额:28 万元
- 项目类别:地区科学基金项目
面向高质量发展的生态系统健康与人类福祉关系及实现机制研究——以新疆玛纳斯河流域为例
- 批准号:42171275
- 批准年份:2021
- 资助金额:56.00 万元
- 项目类别:面上项目
面向高质量发展的生态系统健康与人类福祉关系及实现机制研究--以新疆玛纳斯河流域为例
- 批准号:
- 批准年份:2021
- 资助金额:56 万元
- 项目类别:
相似海外基金
Achieving Sustained Control of Inflammation to Prevent Post-Traumatic Osteoarthritis (PTOA)
实现炎症的持续控制以预防创伤后骨关节炎 (PTOA)
- 批准号:
10641225 - 财政年份:2023
- 资助金额:
$ 49.99万 - 项目类别:
CAREER: Achieving Quality Crowdsourcing across Tasks, Data Scales, and Operational Settings
职业:实现跨任务、数据规模和操作设置的高质量众包
- 批准号:
1253413 - 财政年份:2013
- 资助金额:
$ 49.99万 - 项目类别:
Continuing Grant
Achieving Success for Women & Academic Medicine: A Randomized Multi-level Trial
为女性取得成功
- 批准号:
8334033 - 财政年份:2009
- 资助金额:
$ 49.99万 - 项目类别:
Achieving Success for Women & Academic Medicine: A Randomized Multi-level Trial
为女性取得成功
- 批准号:
7713918 - 财政年份:2009
- 资助金额:
$ 49.99万 - 项目类别:
Achieving Success for Women & Academic Medicine: A Randomized Multi-level Trial
为女性取得成功
- 批准号:
8134815 - 财政年份:2009
- 资助金额:
$ 49.99万 - 项目类别: