The Metadata Powerwash - Integrated tools to make biomedical data FAIR
Metadata Powerwash - 使生物医学数据公平的集成工具
基本信息
- 批准号:10093841
- 负责人:
- 金额:$ 33.48万
- 依托单位:
- 依托单位国家:美国
- 项目类别:
- 财政年份:2021
- 资助国家:美国
- 起止时间:2021-05-01 至 2025-01-31
- 项目状态:未结题
- 来源:
- 关键词:AgeBiological Specimen BanksCategoriesCollectionCommon Data ElementCommunitiesComputersDataData ScienceData SetDiseaseFAIR principlesFunding AgencyGoalsGoldInformation TechnologyKnowledgeLibrariesLinkManualsMetadataMethodsNamesNatural Language ProcessingNumerical valueOntologyPharmaceutical PreparationsProblem SolvingProcessRecordsReportingReproducibilityResearchResearch PersonnelResourcesRetrievalSamplingScienceScientistSpecific qualifier valueSpeedStandardizationStructureTechnologyTestingTimeVariantWorkbasebiomedical scientistdata archivedata repositorydata reuseexperimental studyimprovedindexinginformation organizationinteroperabilitymetadata standardspublic repositoryrepositorysample collectionsearch enginesecondary analysistool
项目摘要
Project Summary
The metadata that describe scientific data are fundamental resources to enable (1) the
discovery and reuse of the data and (2) the reproducibility of the experiments that generated the
data in the first place. Metadata are essential for scientists to understand the associated data
and to reuse them, as well as for information technology to index the data, to make the data
available, and to provide filters for scientists to search for the corresponding datasets.
Currently, the scientific metadata hosted in public repositories suffer from multiple quality issues
that limit scientists’ ability to find and reuse the experimental datasets to which they refer. It can
take many weeks of a scientist’s time to identify a collection of datasets that fulfill specific
criteria when the data are so poorly described—and the majority of the process is necessarily
manual.
We propose to develop an end-to-end solution to standardize biomedical metadata with the
help of ontologies—data structures that define the terms in an application domain and the
relationships among them. There are hundreds of ontologies that provide standard terms for
use in biomedicine, and they are essential resources to make biomedical metadata
interoperable and reusable. Our approach also will build on the technology created by the
Center for Expanded Data Annotation and Retrieval (CEDAR), which offers a library of building
blocks and common data elements for defining computer-based metadata templates based on
community standards.
Our plan involves three specific aims. First, we will develop a method and tool to standardize
the multiple, ad hoc metadata field names that may appear in metadata to represent the same
type of information by replacing those field names with the field names used in standard
metadata templates or, if no appropriate template match is available, with terms from a relevant
ontology. Second, we will develop methods and tools to standardize different types of metadata
field values, for example, categorical values such as drugs or diseases, and numerical values
such as age, or sample collection date. Third, we will evaluate the speed, precision, and recall
of our metadata transformation pipeline—built out of the methods and tools to standardize field
names and values—on a large corpus of metadata that we will manually curate based on
existing public metadata. We will also carry out experiments to test the effect of the
standardized metadata when biomedical scientists perform dataset search in the context of their
work.
项目概要
描述科学数据的元数据是实现 (1)
数据的发现和重用以及(2)生成数据的实验的可重复性
首先,元数据对于科学家理解相关数据至关重要。
并重用它们,以及信息技术来索引数据,使数据
可用,并为科学家提供过滤器来搜索相应的数据集。
目前,公共存储库中托管的科学元数据存在多种质量问题
这限制了科学家查找和重复使用他们所参考的实验数据集的能力。
科学家需要花费数周的时间来识别满足特定要求的数据集集合
当数据描述如此糟糕时的标准——并且大部分过程必然是
手动的。
我们建议开发一个端到端的解决方案来标准化生物医学元数据
本体的帮助——定义应用程序域中的术语和
它们之间的关系有数百个本体,为它们提供了标准术语。
用于生物医学,它们是制作生物医学元数据的重要资源
我们的方法也将建立在互操作性和可重用性的技术之上。
扩展数据注释和检索中心 (CEDAR),提供建筑图书馆
用于定义基于计算机的元数据模板的块和通用数据元素
社区标准。
我们的计划涉及三个具体目标,首先,我们将开发一种标准化方法和工具。
可能出现在元数据中表示相同内容的多个临时元数据字段名称
通过将这些字段名称替换为标准中使用的字段名称来确定信息类型
元数据模板,或者,如果没有合适的模板匹配可用,则使用相关术语
其次,我们将开发标准化不同类型元数据的方法和工具。
字段值,例如药物或疾病等分类值以及数值
例如年龄或样本采集日期第三,我们将评估速度、精确度和召回率。
我们的元数据转换管道 - 由标准化领域的方法和工具构建
名称和值——基于我们将手动管理的大量元数据
现有的公共元数据我们也会进行实验来测试效果。
当生物医学科学家在他们的背景下进行数据集搜索时标准化元数据
工作。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Mark A Musen其他文献
Mark A Musen的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Mark A Musen', 18)}}的其他基金
Enhanced ontology engineering through a Web-based, Cloud-based software architecture
通过基于网络、云的软件架构增强本体工程
- 批准号:
10405968 - 财政年份:2021
- 资助金额:
$ 33.48万 - 项目类别:
The Metadata Powerwash - Integrated tools to make biomedical data FAIR
Metadata Powerwash - 使生物医学数据公平的集成工具
- 批准号:
10397981 - 财政年份:2021
- 资助金额:
$ 33.48万 - 项目类别:
Enhancing the RADx Data Hub for Data FAIRness
增强 RADx 数据中心以实现数据公平
- 批准号:
10433797 - 财政年份:2021
- 资助金额:
$ 33.48万 - 项目类别:
Enhancing the RADx Data Hub for Data FAIRness
增强 RADx 数据中心以实现数据公平
- 批准号:
10794704 - 财政年份:2021
- 资助金额:
$ 33.48万 - 项目类别:
Improved metadata authoring to enhance AI/ML readiness of associated datasets
改进元数据创作,以增强相关数据集的 AI/ML 准备情况
- 批准号:
10592638 - 财政年份:2021
- 资助金额:
$ 33.48万 - 项目类别:
The Metadata Powerwash - Integrated tools to make biomedical data FAIR
Metadata Powerwash - 使生物医学数据公平的集成工具
- 批准号:
10551273 - 财政年份:2021
- 资助金额:
$ 33.48万 - 项目类别:
BioPortal: An Expansive Knowledgebase of Biomedical Entities and Relations
BioPortal:生物医学实体和关系的广泛知识库
- 批准号:
10494104 - 财政年份:2021
- 资助金额:
$ 33.48万 - 项目类别:
BioPortal: An Expansive Knowledgebase of Biomedical Entities and Relations
BioPortal:生物医学实体和关系的广泛知识库
- 批准号:
10271048 - 财政年份:2021
- 资助金额:
$ 33.48万 - 项目类别:
Enhancing the RADx Data Hub for Data FAIRness
增强 RADx 数据中心以实现数据公平
- 批准号:
10699372 - 财政年份:2021
- 资助金额:
$ 33.48万 - 项目类别:
Enhancing the RADx Data Hub for Data FAIRness
增强 RADx 数据中心以实现数据公平
- 批准号:
10850055 - 财政年份:2021
- 资助金额:
$ 33.48万 - 项目类别:
相似国自然基金
2019年低温生物学与生物样本活库国际研讨会暨大学生创新论坛
- 批准号:81942002
- 批准年份:2019
- 资助金额:5 万元
- 项目类别:专项基金项目
基于构建卵巢癌类器官体模型基础上探讨erlotinib/HAPs治疗卵巢癌的新策略
- 批准号:81872507
- 批准年份:2018
- 资助金额:57.0 万元
- 项目类别:面上项目
基于激光捕获微分离、依赖配体蛋白质组芯片技术和生物样本库的IgA肾病评估标志物研究
- 批准号:81370867
- 批准年份:2013
- 资助金额:16.0 万元
- 项目类别:面上项目
相似海外基金
Extracellular RNA Expression Biomarkers in Osteoarthritis Disease and Progression
骨关节炎疾病和进展中的细胞外 RNA 表达生物标志物
- 批准号:
10593308 - 财政年份:2023
- 资助金额:
$ 33.48万 - 项目类别:
The Metadata Powerwash - Integrated tools to make biomedical data FAIR
Metadata Powerwash - 使生物医学数据公平的集成工具
- 批准号:
10397981 - 财政年份:2021
- 资助金额:
$ 33.48万 - 项目类别:
Lipidome composition, immune activation and subclinical vascular disease in Adolescents with perinatally acquired HIV in Uganda
乌干达围产期感染 HIV 的青少年的脂质组成、免疫激活和亚临床血管疾病
- 批准号:
10455682 - 财政年份:2021
- 资助金额:
$ 33.48万 - 项目类别:
Lipidome composition, immune activation and subclinical vascular disease in Adolescents with perinatally acquired HIV in Uganda
乌干达围产期感染 HIV 的青少年的脂质组成、免疫激活和亚临床血管疾病
- 批准号:
10314427 - 财政年份:2021
- 资助金额:
$ 33.48万 - 项目类别:
Quantifying Sex-and-Age-Related Differences in Antiretroviral Exposure and Adverse Effects in the MACS/WIHS Combined Cohort Study
MACS/WIHS 联合队列研究中抗逆转录病毒药物暴露和不良反应的性别和年龄相关差异的量化
- 批准号:
10600858 - 财政年份:2021
- 资助金额:
$ 33.48万 - 项目类别: