End-to-end Extraction and Curation of Large RDF Repositories

大型 RDF 存储库的端到端提取和管理

基本信息

  • 批准号:
    543961-2019
  • 负责人:
  • 金额:
    $ 11.82万
  • 依托单位:
  • 依托单位国家:
    加拿大
  • 项目类别:
    Collaborative Research and Development Grants
  • 财政年份:
    2020
  • 资助国家:
    加拿大
  • 起止时间:
    2020-01-01 至 2021-12-31
  • 项目状态:
    已结题

项目摘要

Enterprises are building massive storage repositories (often referred to as data lakes) that hold data in its native format (text, JSON, CSV files, relational databases, etc). The aim is to increase the amount of usable information by allowing fast acquisition of data from many sources as soon as they are available, instead of waiting for traditional ETL (extract-transform-load) stacks to curate the data and integrate it in a trustworthy warehouse. Unfortunately, with the massive number of external data sources, and the increasing heterogeneity in the formats of these sources (text, feeds, tweets, posts, blogs, events, etc.), handling unstructured and semi-structured data in a unified framework becomes key. In this project, we build an end-to-end system for handling (semi-) structured and unstructured in a unified way, in an open-source test-bed we call DSTLR (short for the data distiller). The DSTLR project combines advances in natural language processing (NLP) and information extraction (IE) particularly with deep learning, data cleaning, and managing RDF data to enable treating all types of data in a common format that allows for truth finding, question answering and structured data enrichment. The main objective of the proposal is to identify an investigate the technical challenges in building such a system including: (1) identifying the necessary provenance and lineage information to describe the context of the IE system; (2) efficient propagation of such information across the modules; (3) leveraging this rich extraction context in cleaning the extracted information; and (4) exploring novel ways to link the cleaning of the output to the information extraction subsystem in an iterative loop, with judicious involvement of humans in the whole life cycle. For this, the proposal identifies multiple concrete research tasks and expected outcome of these investigations.
企业正在建立大量的存储存储库(通常称为数据湖),该存储库以其本机格式(文本,JSON,CSV文件,关系数据库等)保存数据。目的是通过允许从许多来源快速获取数据来增加可用信息的量仓库。不幸的是,随着大量外部数据源以及这些源格式的异质性的增加(文本,供稿,推文,帖子,帖子,博客,事件等),在统一框架中处理非结构化和半结构化数据钥匙。在此项目中,我们构建了一个端到端系统,用于以统一的方式处理(半)结构化和非结构化的系统,在开源测试床中我们称为DSTLR(数据蒸馏器的简称)。 DSTLR项目结合了自然语言处理(NLP)和信息提取(IE)的进步,尤其是在深度学习,数据清洁和管理RDF数据的情况下,以允许以真相查找,问答和答案的方式处理所有类型的数据结构化数据丰富。该提案的主要目的是确定调查建立此类系统的技术挑战,包括:(1)确定必要的出处和血统信息,以描述IE系统的背景; (2)在模块上有效地传播此类信息; (3)利用这种丰富的提取环境清洁提取的信息; (4)探索新颖的方法将输出清洁与迭代循环中的信息提取子系统联系起来,并在整个生命周期中明智地参与了人类。为此,该提案确定了这些调查的多个具体研究任务和预期结果。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Ilyas, Ihab其他文献

Ilyas, Ihab的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Ilyas, Ihab', 18)}}的其他基金

Scalable Cleaning, Integration and Analysis of Structured and Semi-Structured Inconsistent Data
结构化和半结构化不一致数据的可扩展清理、集成和分析
  • 批准号:
    RGPIN-2019-04068
  • 财政年份:
    2022
  • 资助金额:
    $ 11.82万
  • 项目类别:
    Discovery Grants Program - Individual
Scalable Cleaning, Integration and Analysis of Structured and Semi-Structured Inconsistent Data
结构化和半结构化不一致数据的可扩展清理、集成和分析
  • 批准号:
    RGPIN-2019-04068
  • 财政年份:
    2021
  • 资助金额:
    $ 11.82万
  • 项目类别:
    Discovery Grants Program - Individual
NSERC/Thomson Reuters Industrial Research Chair in Data Cleaning
NSERC/汤森路透数据清理工业研究主席
  • 批准号:
    534011-2017
  • 财政年份:
    2021
  • 资助金额:
    $ 11.82万
  • 项目类别:
    Industrial Research Chairs
NSERC/Thomson Reuters Industrial Research Chair in Data Cleaning
NSERC/汤森路透数据清理工业研究主席
  • 批准号:
    534011-2017
  • 财政年份:
    2020
  • 资助金额:
    $ 11.82万
  • 项目类别:
    Industrial Research Chairs
Scalable Cleaning, Integration and Analysis of Structured and Semi-Structured Inconsistent Data
结构化和半结构化不一致数据的可扩展清理、集成和分析
  • 批准号:
    RGPIN-2019-04068
  • 财政年份:
    2020
  • 资助金额:
    $ 11.82万
  • 项目类别:
    Discovery Grants Program - Individual
Scalable Cleaning, Integration and Analysis of Structured and Semi-Structured Inconsistent Data
结构化和半结构化不一致数据的可扩展清理、集成和分析
  • 批准号:
    RGPIN-2019-04068
  • 财政年份:
    2019
  • 资助金额:
    $ 11.82万
  • 项目类别:
    Discovery Grants Program - Individual
End-to-end Extraction and Curation of Large RDF Repositories
大型 RDF 存储库的端到端提取和管理
  • 批准号:
    543961-2019
  • 财政年份:
    2019
  • 资助金额:
    $ 11.82万
  • 项目类别:
    Collaborative Research and Development Grants
NSERC/Thomson Reuters Industrial Research Chair in Data Cleaning
NSERC/汤森路透数据清理工业研究主席
  • 批准号:
    534011-2017
  • 财政年份:
    2019
  • 资助金额:
    $ 11.82万
  • 项目类别:
    Industrial Research Chairs
Cleaning and Analysis of Large Uncertain and Inconsistent Data Sources
大量不确定且不一致的数据源的清理和分析
  • 批准号:
    RGPIN-2014-06143
  • 财政年份:
    2018
  • 资助金额:
    $ 11.82万
  • 项目类别:
    Discovery Grants Program - Individual
NSERC/Thomson Reuters Industrial Research Chair in Data Cleaning
NSERC/汤森路透数据清理工业研究主席
  • 批准号:
    534011-2017
  • 财政年份:
    2018
  • 资助金额:
    $ 11.82万
  • 项目类别:
    Industrial Research Chairs

相似国自然基金

真菌特异的内吞作用相关蛋白End3发挥作用的结构研究
  • 批准号:
  • 批准年份:
    2020
  • 资助金额:
    24 万元
  • 项目类别:
    青年科学基金项目
绿色轻固结尾矿基地质聚合物的凝胶差异和重金属固定机理研究
  • 批准号:
  • 批准年份:
    2019
  • 资助金额:
    60 万元
  • 项目类别:
    面上项目
峨眉山玄武岩喷发持续时间的研究:来自古地磁学的约束
  • 批准号:
    41804068
  • 批准年份:
    2018
  • 资助金额:
    26.0 万元
  • 项目类别:
    青年科学基金项目
一类内含子来源的长非编码RNA的加工成熟机制及功能研究
  • 批准号:
    31271376
  • 批准年份:
    2012
  • 资助金额:
    90.0 万元
  • 项目类别:
    面上项目
从PBMC-β-END-μ-阿片受体途径探讨华蟾素治疗癌痛的外周机制
  • 批准号:
    81173612
  • 批准年份:
    2011
  • 资助金额:
    58.0 万元
  • 项目类别:
    面上项目

相似海外基金

Unified, Scalable, and Reproducible Neurostatistical Software
统一、可扩展且可重复的神经统计软件
  • 批准号:
    10725500
  • 财政年份:
    2023
  • 资助金额:
    $ 11.82万
  • 项目类别:
Comparative Risk of Oral Complications Associated with Medications for Opioid Use Disorder: A Mixed-Methods Approach
与阿片类药物使用障碍药物相关的口腔并发症的风险比较:混合方法
  • 批准号:
    10765049
  • 财政年份:
    2023
  • 资助金额:
    $ 11.82万
  • 项目类别:
SBIR Phase I: Rare Earth Element Extraction from End-of-Life Fluorescent Light Bulb Powder
SBIR 第一阶段:从报废荧光灯泡粉中提取稀土元素
  • 批准号:
    2126763
  • 财政年份:
    2022
  • 资助金额:
    $ 11.82万
  • 项目类别:
    Standard Grant
Lens capsule and secondary cataract
晶状体囊和继发性白内障
  • 批准号:
    10706997
  • 财政年份:
    2022
  • 资助金额:
    $ 11.82万
  • 项目类别:
Lens capsule and secondary cataract
晶状体囊和继发性白内障
  • 批准号:
    10433474
  • 财政年份:
    2022
  • 资助金额:
    $ 11.82万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了