The Metadata Powerwash - Integrated tools to make biomedical data FAIR

Metadata Powerwash - 使生物医学数据公平的集成工具

基本信息

  • 批准号:
    10093841
  • 负责人:
  • 金额:
    $ 33.48万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
  • 财政年份:
    2021
  • 资助国家:
    美国
  • 起止时间:
    2021-05-01 至 2025-01-31
  • 项目状态:
    未结题

项目摘要

Project Summary The metadata that describe scientific data are fundamental resources to enable (1) the discovery and reuse of the data and (2) the reproducibility of the experiments that generated the data in the first place. Metadata are essential for scientists to understand the associated data and to reuse them, as well as for information technology to index the data, to make the data available, and to provide filters for scientists to search for the corresponding datasets. Currently, the scientific metadata hosted in public repositories suffer from multiple quality issues that limit scientists’ ability to find and reuse the experimental datasets to which they refer. It can take many weeks of a scientist’s time to identify a collection of datasets that fulfill specific criteria when the data are so poorly described—and the majority of the process is necessarily manual. We propose to develop an end-to-end solution to standardize biomedical metadata with the help of ontologies—data structures that define the terms in an application domain and the relationships among them. There are hundreds of ontologies that provide standard terms for use in biomedicine, and they are essential resources to make biomedical metadata interoperable and reusable. Our approach also will build on the technology created by the Center for Expanded Data Annotation and Retrieval (CEDAR), which offers a library of building blocks and common data elements for defining computer-based metadata templates based on community standards. Our plan involves three specific aims. First, we will develop a method and tool to standardize the multiple, ad hoc metadata field names that may appear in metadata to represent the same type of information by replacing those field names with the field names used in standard metadata templates or, if no appropriate template match is available, with terms from a relevant ontology. Second, we will develop methods and tools to standardize different types of metadata field values, for example, categorical values such as drugs or diseases, and numerical values such as age, or sample collection date. Third, we will evaluate the speed, precision, and recall of our metadata transformation pipeline—built out of the methods and tools to standardize field names and values—on a large corpus of metadata that we will manually curate based on existing public metadata. We will also carry out experiments to test the effect of the standardized metadata when biomedical scientists perform dataset search in the context of their work.
项目摘要 描述科学数据的元数据是启用的基本资源(1) 数据的发现和重复使用以及(2)生成的实验的可重复性 数据首先。元数据对科学家了解相关数据至关重要 并重复使用它们以及信息技术来索引数据,以制作数据 可用,并提供过滤器供科学家搜索相应的数据集。 目前,在公共存储库中托管的科学元数据遭受了多种质量问题 这限制了科学家查找和重复他们提到的实验数据集的能力。它可以 花很多星期的科学家时间来确定满足特定的数据集的集合 当数据如此不佳描述时的标准 - 大部分过程都是必要的 手动的。 我们建议开发一种端到端解决方案,以标准化生物医学元数据 本体论的帮助 - 定义应用程序域中的术语的数据结构和 他们之间的关系。有数百个本体论为 用于生物医学,它们是制造生物医学元数据的重要资源 可互操作和可重复使用。我们的方法还将基于由 扩展数据注释和检索中心(Cedar),该中心提供建筑物库 基于计算机基于计算机的元数据模板的块和通用数据元素 社区标准。 我们的计划涉及三个具体目标。首先,我们将开发一种标准化的方法和工具 元数据中可能出现的多个临时元数据字段名称表示相同 通过用标准中使用的字段名称替换这些字段名称来实现信息类型 元数据模板,或者,如果没有适当的模板匹配,则具有相关的术语 本体论。其次,我们将开发标准化不同类型的元数据的方法和工具 野外值,例如类别值,例如药物或疾病和数值 例如年龄或样本收集日期。第三,我们将评估速度,精度和召回 我们的元数据转换管道 - 建立了标准化字段的方法和工具 姓名和价值 - 我们将根据大量的元数据语料库来基于 现有的公共元数据。我们还将进行实验以测试 当生物医学科学家在其上进行数据集搜索时,标准化的元数据 工作。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Mark A Musen其他文献

Mark A Musen的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Mark A Musen', 18)}}的其他基金

Enhanced ontology engineering through a Web-based, Cloud-based software architecture
通过基于网络、云的软件架构增强本体工程
  • 批准号:
    10405968
  • 财政年份:
    2021
  • 资助金额:
    $ 33.48万
  • 项目类别:
The Metadata Powerwash - Integrated tools to make biomedical data FAIR
Metadata Powerwash - 使生物医学数据公平的集成工具
  • 批准号:
    10397981
  • 财政年份:
    2021
  • 资助金额:
    $ 33.48万
  • 项目类别:
Enhancing the RADx Data Hub for Data FAIRness
增强 RADx 数据中心以实现数据公平
  • 批准号:
    10433797
  • 财政年份:
    2021
  • 资助金额:
    $ 33.48万
  • 项目类别:
Enhancing the RADx Data Hub for Data FAIRness
增强 RADx 数据中心以实现数据公平
  • 批准号:
    10794704
  • 财政年份:
    2021
  • 资助金额:
    $ 33.48万
  • 项目类别:
Improved metadata authoring to enhance AI/ML readiness of associated datasets
改进元数据创作,以增强相关数据集的 AI/ML 准备情况
  • 批准号:
    10592638
  • 财政年份:
    2021
  • 资助金额:
    $ 33.48万
  • 项目类别:
The Metadata Powerwash - Integrated tools to make biomedical data FAIR
Metadata Powerwash - 使生物医学数据公平的集成工具
  • 批准号:
    10551273
  • 财政年份:
    2021
  • 资助金额:
    $ 33.48万
  • 项目类别:
BioPortal: An Expansive Knowledgebase of Biomedical Entities and Relations
BioPortal:生物医学实体和关系的广泛知识库
  • 批准号:
    10494104
  • 财政年份:
    2021
  • 资助金额:
    $ 33.48万
  • 项目类别:
BioPortal: An Expansive Knowledgebase of Biomedical Entities and Relations
BioPortal:生物医学实体和关系的广泛知识库
  • 批准号:
    10271048
  • 财政年份:
    2021
  • 资助金额:
    $ 33.48万
  • 项目类别:
Enhancing the RADx Data Hub for Data FAIRness
增强 RADx 数据中心以实现数据公平
  • 批准号:
    10699372
  • 财政年份:
    2021
  • 资助金额:
    $ 33.48万
  • 项目类别:
Enhancing the RADx Data Hub for Data FAIRness
增强 RADx 数据中心以实现数据公平
  • 批准号:
    10850055
  • 财政年份:
    2021
  • 资助金额:
    $ 33.48万
  • 项目类别:

相似国自然基金

基于大型标本数据库开展中国木本种子植物保护生物地理学研究
  • 批准号:
    31700465
  • 批准年份:
    2017
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

Extracellular RNA Expression Biomarkers in Osteoarthritis Disease and Progression
骨关节炎疾病和进展中的细胞外 RNA 表达生物标志物
  • 批准号:
    10593308
  • 财政年份:
    2023
  • 资助金额:
    $ 33.48万
  • 项目类别:
The Metadata Powerwash - Integrated tools to make biomedical data FAIR
Metadata Powerwash - 使生物医学数据公平的集成工具
  • 批准号:
    10397981
  • 财政年份:
    2021
  • 资助金额:
    $ 33.48万
  • 项目类别:
Lipidome composition, immune activation and subclinical vascular disease in Adolescents with perinatally acquired HIV in Uganda
乌干达围产期感染 HIV 的青少年的脂质组成、免疫激活和亚临床血管疾病
  • 批准号:
    10455682
  • 财政年份:
    2021
  • 资助金额:
    $ 33.48万
  • 项目类别:
Lipidome composition, immune activation and subclinical vascular disease in Adolescents with perinatally acquired HIV in Uganda
乌干达围产期感染 HIV 的青少年的脂质组成、免疫激活和亚临床血管疾病
  • 批准号:
    10314427
  • 财政年份:
    2021
  • 资助金额:
    $ 33.48万
  • 项目类别:
Quantifying Sex-and-Age-Related Differences in Antiretroviral Exposure and Adverse Effects in the MACS/WIHS Combined Cohort Study
MACS/WIHS 联合队列研究中抗逆转录病毒药物暴露和不良反应的性别和年龄相关差异的量化
  • 批准号:
    10600858
  • 财政年份:
    2021
  • 资助金额:
    $ 33.48万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了