III: Small: Active Learning of Language Models for Information Extraction
三:小:用于信息提取的语言模型的主动学习
基本信息
- 批准号:1016754
- 负责人:
- 金额:$ 18.37万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Standard Grant
- 财政年份:2010
- 资助国家:美国
- 起止时间:2010-08-15 至 2013-07-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
This project studies methods for extracting accurate knowledge bases from the Web. Fully-automated Web information extraction techniques are massively scalable, but have accuracy and coverage limitations. This proposal investigates how to improve automated extraction techniques by introducing carefully-selected human guidance. The proposed system continually extracts knowledge from the Web, along the way dynamically synthesizing and issuing queries to humans to increase the accuracy of the system's knowledge base and extractors.The approach extends the PI's previous work utilizing statistical language models (SLMs) for information extraction. Novel SLMs are investigated for unifying the extraction of relational data expressed in Web tables with extraction from free text. New active learning techniques utilize the models to identify "high-leverage" queries -- requesting, for example, textual extraction patterns that when retrieved from the Web yield thousands of novel extractions. The queries investigated are mostly amenable to non-experts, meaning that much of the human input can be acquired at scale via online mass-collaboration.The broader impact of this project lies in the potential for accurate Web extraction to radically improve Web search, allowing users to answer complicated questions by synthesizing information across multiple Web pages. In domains like medicine and biology, mining extracted knowledge bases could lead to important discoveries and novel therapies.Further information may be found at the project web page:http://wail.eecs.northwestern.edu/projects/activelms/index.html
该项目研究从网络中提取准确知识库的方法。 全自动 Web 信息提取技术具有大规模可扩展性,但存在准确性和覆盖范围限制。 该提案研究了如何通过引入精心选择的人工指导来改进自动提取技术。 所提出的系统不断地从网络中提取知识,同时动态地合成并向人类发出查询,以提高系统知识库和提取器的准确性。该方法扩展了 PI 之前利用统计语言模型 (SLM) 进行信息提取的工作。 研究新颖的 SLM 来统一 Web 表中表达的关系数据的提取和自由文本的提取。 新的主动学习技术利用模型来识别“高杠杆”查询——例如,请求文本提取模式,当从网络检索时,会产生数千个新颖的提取。 所调查的查询大多适合非专家,这意味着大部分人类输入可以通过在线大规模协作大规模获取。该项目的更广泛影响在于准确的网络提取有可能从根本上改善网络搜索,从而允许用户通过综合多个网页的信息来回答复杂的问题。 在医学和生物学等领域,挖掘提取的知识库可能会带来重要的发现和新颖的疗法。更多信息可以在项目网页上找到:http://wail.eecs.northwestern.edu/projects/activelms/index.html
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Douglas Downey其他文献
Douglas Downey的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Douglas Downey', 18)}}的其他基金
RI: Small: Extracting and Representing Commonsense Knowledge Using Language Models
RI:小:使用语言模型提取和表示常识知识
- 批准号:
2006851 - 财政年份:2020
- 资助金额:
$ 18.37万 - 项目类别:
Standard Grant
CAREER: Web Information Extraction: Integration and Scaling
职业:Web 信息提取:集成和扩展
- 批准号:
1351029 - 财政年份:2014
- 资助金额:
$ 18.37万 - 项目类别:
Continuing Grant
RI: Medium: Collaborative Research: Learning Representations of Language for Domain Adaptation
RI:媒介:协作研究:学习领域适应的语言表示
- 批准号:
1065270 - 财政年份:2011
- 资助金额:
$ 18.37万 - 项目类别:
Continuing Grant
相似国自然基金
单细胞分辨率下的石杉碱甲介导小胶质细胞极化表型抗缺血性脑卒中的机制研究
- 批准号:82304883
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
小分子无半胱氨酸蛋白调控生防真菌杀虫活性的作用与机理
- 批准号:32372613
- 批准年份:2023
- 资助金额:50 万元
- 项目类别:面上项目
诊疗一体化PS-Hc@MB协同训练介导脑小血管病康复的作用及机制研究
- 批准号:82372561
- 批准年份:2023
- 资助金额:49 万元
- 项目类别:面上项目
非小细胞肺癌MECOM/HBB通路介导血红素代谢异常并抑制肿瘤起始细胞铁死亡的机制研究
- 批准号:82373082
- 批准年份:2023
- 资助金额:49 万元
- 项目类别:面上项目
FATP2/HILPDA/SLC7A11轴介导肿瘤相关中性粒细胞脂代谢重编程影响非小细胞肺癌放疗免疫的作用和机制研究
- 批准号:82373304
- 批准年份:2023
- 资助金额:49 万元
- 项目类别:面上项目
相似海外基金
Commercialization of an MRI contrast agent for differential diagnosis of prostate cancer
用于前列腺癌鉴别诊断的 MRI 造影剂的商业化
- 批准号:
10704488 - 财政年份:2022
- 资助金额:
$ 18.37万 - 项目类别:
The Development and Evaluation of Enhanced Digital-Chemosensory-Based Olfactory Training for Remote Management of Substance Use Disorders (EDITOR)
用于药物使用障碍远程管理的增强型数字化学感应嗅觉训练的开发和评估(编辑)
- 批准号:
10469912 - 财政年份:2022
- 资助金额:
$ 18.37万 - 项目类别:
Commercialization of an MRI contrast agent for differential diagnosis of prostate cancer
用于前列腺癌鉴别诊断的 MRI 造影剂的商业化
- 批准号:
10481722 - 财政年份:2022
- 资助金额:
$ 18.37万 - 项目类别:
Developing Broad-Spectrum Antivirals Targeting Coronavirus Replicase and Helicase
开发针对冠状病毒复制酶和解旋酶的广谱抗病毒药物
- 批准号:
10513685 - 财政年份:2022
- 资助金额:
$ 18.37万 - 项目类别:
Structure, Mechanism and Interactions of Type IA Topoisomerases
IA型拓扑异构酶的结构、机制和相互作用
- 批准号:
10093404 - 财政年份:2021
- 资助金额:
$ 18.37万 - 项目类别: