III: Small: Active Learning of Language Models for Information Extraction
三:小:用于信息提取的语言模型的主动学习
基本信息
- 批准号:1016754
- 负责人:
- 金额:$ 18.37万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Standard Grant
- 财政年份:2010
- 资助国家:美国
- 起止时间:2010-08-15 至 2013-07-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
This project studies methods for extracting accurate knowledge bases from the Web. Fully-automated Web information extraction techniques are massively scalable, but have accuracy and coverage limitations. This proposal investigates how to improve automated extraction techniques by introducing carefully-selected human guidance. The proposed system continually extracts knowledge from the Web, along the way dynamically synthesizing and issuing queries to humans to increase the accuracy of the system's knowledge base and extractors.The approach extends the PI's previous work utilizing statistical language models (SLMs) for information extraction. Novel SLMs are investigated for unifying the extraction of relational data expressed in Web tables with extraction from free text. New active learning techniques utilize the models to identify "high-leverage" queries -- requesting, for example, textual extraction patterns that when retrieved from the Web yield thousands of novel extractions. The queries investigated are mostly amenable to non-experts, meaning that much of the human input can be acquired at scale via online mass-collaboration.The broader impact of this project lies in the potential for accurate Web extraction to radically improve Web search, allowing users to answer complicated questions by synthesizing information across multiple Web pages. In domains like medicine and biology, mining extracted knowledge bases could lead to important discoveries and novel therapies.Further information may be found at the project web page:http://wail.eecs.northwestern.edu/projects/activelms/index.html
该项目研究了从网络中提取准确知识库的方法。 完全自动化的Web信息提取技术非常可扩展,但具有准确性和覆盖范围的限制。 该提案通过引入精心挑选的人类指导来调查如何改善自动提取技术。 提出的系统不断从网络中提取知识,并在动态综合并向人类发出查询的过程中,以提高系统知识库和提取器的准确性。该方法扩展了PI使用统计语言模型(SLMS)以进行信息提取的PI的工作。 研究了新型SLM,以统一在Web表中用自由文本提取的关系提取的关系数据。 新的主动学习技术利用模型来识别“高杠杆”查询 - 例如,从网络中检索到的文本提取模式,从而产生数千种新颖的提取。 调查的查询大多与非专家有关,这意味着可以通过在线群众群体进行大规模获取大量人类输入。该项目的更广泛的影响在于可能进行准确的Web提取以从根本上改善网络搜索,从而使用户可以通过跨多个网页综合信息来回答复杂的问题。 在医学和生物学等领域中,采矿提取的知识库可能会导致重要发现和新颖的疗法。FURTHER信息可以在项目网页上找到:http://wail.eecs.northwestern.edu/projects/activelms/index.htex.html
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Douglas Downey其他文献
Douglas Downey的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Douglas Downey', 18)}}的其他基金
RI: Small: Extracting and Representing Commonsense Knowledge Using Language Models
RI:小:使用语言模型提取和表示常识知识
- 批准号:
2006851 - 财政年份:2020
- 资助金额:
$ 18.37万 - 项目类别:
Standard Grant
CAREER: Web Information Extraction: Integration and Scaling
职业:Web 信息提取:集成和扩展
- 批准号:
1351029 - 财政年份:2014
- 资助金额:
$ 18.37万 - 项目类别:
Continuing Grant
RI: Medium: Collaborative Research: Learning Representations of Language for Domain Adaptation
RI:媒介:协作研究:学习领域适应的语言表示
- 批准号:
1065270 - 财政年份:2011
- 资助金额:
$ 18.37万 - 项目类别:
Continuing Grant
相似国自然基金
SERT-nNOS蛋白相互作用的结构基础及其小分子互作抑制剂的设计、合成及快速抗抑郁活性研究
- 批准号:82373728
- 批准年份:2023
- 资助金额:49 万元
- 项目类别:面上项目
APOE调控小胶质细胞脂代谢模式在ASD认知和社交损伤中的作用及机制研究
- 批准号:82373597
- 批准年份:2023
- 资助金额:49 万元
- 项目类别:面上项目
小胶质细胞外泌体通过miR-486抑制神经元铁死亡介导电针修复脊髓损伤的机制研究
- 批准号:82360454
- 批准年份:2023
- 资助金额:32 万元
- 项目类别:地区科学基金项目
CUL4B正反馈调控FOXO3a-FOXM1通路促进非小细胞肺癌放疗抵抗的机制研究
- 批准号:82360584
- 批准年份:2023
- 资助金额:32 万元
- 项目类别:地区科学基金项目
葡萄糖饥饿条件下AMPK-CREB-PPA1信号通路促进非小细胞肺癌细胞增殖的分子机制研究
- 批准号:82360518
- 批准年份:2023
- 资助金额:32 万元
- 项目类别:地区科学基金项目
相似海外基金
Commercialization of an MRI contrast agent for differential diagnosis of prostate cancer
用于前列腺癌鉴别诊断的 MRI 造影剂的商业化
- 批准号:
10704488 - 财政年份:2022
- 资助金额:
$ 18.37万 - 项目类别:
The Development and Evaluation of Enhanced Digital-Chemosensory-Based Olfactory Training for Remote Management of Substance Use Disorders (EDITOR)
用于药物使用障碍远程管理的增强型数字化学感应嗅觉训练的开发和评估(编辑)
- 批准号:
10469912 - 财政年份:2022
- 资助金额:
$ 18.37万 - 项目类别:
Commercialization of an MRI contrast agent for differential diagnosis of prostate cancer
用于前列腺癌鉴别诊断的 MRI 造影剂的商业化
- 批准号:
10481722 - 财政年份:2022
- 资助金额:
$ 18.37万 - 项目类别:
Developing Broad-Spectrum Antivirals Targeting Coronavirus Replicase and Helicase
开发针对冠状病毒复制酶和解旋酶的广谱抗病毒药物
- 批准号:
10513685 - 财政年份:2022
- 资助金额:
$ 18.37万 - 项目类别:
Structure, Mechanism and Interactions of Type IA Topoisomerases
IA型拓扑异构酶的结构、机制和相互作用
- 批准号:
10093404 - 财政年份:2021
- 资助金额:
$ 18.37万 - 项目类别: