Improved metadata authoring to enhance AI/ML readiness of associated datasets
改进元数据创作,以增强相关数据集的 AI/ML 准备情况
基本信息
- 批准号:10592638
- 负责人:
- 金额:$ 27.45万
- 依托单位:
- 依托单位国家:美国
- 项目类别:
- 财政年份:2021
- 资助国家:美国
- 起止时间:2021-05-01 至 2025-01-31
- 项目状态:未结题
- 来源:
- 关键词:7 year oldArchitectureAreaArtificial IntelligenceAwardBig Data to KnowledgeCOVID diagnosticCOVID-19 testingCollaborationsCommon Data ElementComputer softwareComputersDataData SetDevelopmentDiagnostic testsElementsEnsureFAIR principlesFundingGoalsGrantGuidelinesInfrastructureInstitutesInvestigationLibrariesMetadataMethodsModernizationNorth CarolinaOnline SystemsOntologyPlayProcessRADxReadinessRenaissanceReportingResearchResearch PersonnelResourcesRestRoleScientistSecureStandardizationSupplementationSystemTechniquesTechnologyUnited States National Institutes of HealthUniversitiesWorkcloud baseddata archivedata hubdata managementdata repositorydesignexperimental studyimprovedmetadata standardsnovel strategiesonline repositoryopen sourceparent grantprogramsrepositoryspellingsystem architecturetoolweb-accessible
项目摘要
PROJECT SUMMARY/ABSTRACT
This proposal is submitted to supplement grant R01 LM013498-01, “The Metadata Powerwash—Integrated
tools to make biomedical data FAIR.” The parent grant proposes to study AI methods to standardize the
metadata in online datasets to make the corresponding data findable, accessible, interoperable, and reusable,
and thus “AI-ready.” The goal of the parent grant is to transform the metadata that annotate experimental
datasets online to a form that adheres to formal reporting guidelines and that uses terms from standard
ontologies and common data elements from NIH repositories. The research depends on technology known as
CEDAR, which manages a library of metadata templates that correspond to reporting guidelines that define the
expected attribute–value pairs in standard metadata descriptions. The Metadata Powerwash uses these
CEDAR metadata templates to suggest what elements from standard reporting guidelines might have been
intended by the idiosyncratic entries that scientists often use when they author metadata. The CEDAR
technology, while widely used and extremely successful, is already 7 years old and in need of modernization.
Enhancements to CEDAR will have obvious benefits to the parent grant.
CEDAR uses its library of metadata templates to assist scientists when they author new metadata to describe
the datasets that result from their experiments. The system ensures that the new metadata are adherent to
appropriate standards whenever possible. CEDAR is slated to be included as part of the cloud-based Data
Hub for the NIH RADx program, which supports a wide range of studies in the area of diagnostic testing for
COVID-19. Unfortunately, CEDAR is not cloud-ready. Thus, if CEDAR is to play an optimal role in enhancing
the AI-readiness of NIH RADx data, then ideally additional work is necessary. To advance the role of CEDAR
in the creation of AI-ready datasets, (1) we will make CEDAR cloud-native by containerizing all CEDAR
microservices, by making these microservices discoverable and observable, and by migrating the entire
system to the cloud, and (2) we will make CEDAR a highly available system that is easy to maintain and
evolve; we will simplify and enhance the system’s architecture, taking advantage of new approaches and
components that were not available to us when the system was first designed. As a result, CEDAR will be
much more scalable, maintainable, and deployable. The new architecture will advance the application of AI
techniques not only to RADx data, but also to a wide range of datasets of importance to the NIH.
项目概要/摘要
该提案提交给补充赠款 R01 LM013498-01,“元数据 Powerwash — 集成
使生物医学数据变得公平的工具。”家长资助建议研究人工智能方法来标准化生物医学数据。
在线数据集中的元数据,使相应的数据可查找、可访问、可互操作和可重用,
因此,“AI 就绪”。家长资助的目标是转变注释实验的元数据。
将数据集在线转换为符合正式报告指南并使用标准术语的形式
该研究依赖于来自 NIH 存储库的本体论和通用数据元素。
CEDAR,管理元数据模板库,这些模板对应于定义
标准元数据描述中的预期属性值对元数据 Powerwash 使用这些。
CEDAR 元数据模板,用于建议标准报告指南中的哪些元素可能是
科学家在创作元数据时经常使用的特殊条目。
该技术虽然被广泛使用并且非常成功,但已经有 7 年历史了,需要现代化。
CEDAR 的增强将为家长补助金带来明显的好处。
CEDAR 使用其元数据模板库来帮助科学家创作新的元数据来描述
系统确保新的元数据符合实验结果的数据集。
CEDAR 预计将尽可能包含在基于云的数据中。
NIH RADx 计划的中心,支持诊断测试领域的广泛研究
不幸的是,CEDAR 尚未准备好应对新冠肺炎 (COVID-19) 云,因此,如果 CEDAR 要在增强功能方面发挥最佳作用。
NIH RADx 数据的人工智能准备情况,那么理想情况下需要进行额外的工作来推进 CEDAR 的作用。
在创建 AI 就绪数据集时,(1) 我们将通过容器化所有 CEDAR 来使 CEDAR 云原生
微服务,通过使这些微服务可发现和可观察,并迁移整个微服务
(2)我们将把CEDAR打造成一个易于维护和维护的高可用系统
发展;我们将利用新的方法和技术来简化和增强系统的架构
系统最初设计时我们无法使用的组件因此,CEDAR 将被使用。
新架构更具可扩展性、可维护性和可部署性,将推动人工智能的应用。
技术不仅适用于 RADx 数据,还适用于对 NIH 重要的各种数据集。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Mark A Musen其他文献
Mark A Musen的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Mark A Musen', 18)}}的其他基金
Enhanced ontology engineering through a Web-based, Cloud-based software architecture
通过基于网络、云的软件架构增强本体工程
- 批准号:
10405968 - 财政年份:2021
- 资助金额:
$ 27.45万 - 项目类别:
The Metadata Powerwash - Integrated tools to make biomedical data FAIR
Metadata Powerwash - 使生物医学数据公平的集成工具
- 批准号:
10397981 - 财政年份:2021
- 资助金额:
$ 27.45万 - 项目类别:
Enhancing the RADx Data Hub for Data FAIRness
增强 RADx 数据中心以实现数据公平
- 批准号:
10433797 - 财政年份:2021
- 资助金额:
$ 27.45万 - 项目类别:
Enhancing the RADx Data Hub for Data FAIRness
增强 RADx 数据中心以实现数据公平
- 批准号:
10794704 - 财政年份:2021
- 资助金额:
$ 27.45万 - 项目类别:
The Metadata Powerwash - Integrated tools to make biomedical data FAIR
Metadata Powerwash - 使生物医学数据公平的集成工具
- 批准号:
10551273 - 财政年份:2021
- 资助金额:
$ 27.45万 - 项目类别:
BioPortal: An Expansive Knowledgebase of Biomedical Entities and Relations
BioPortal:生物医学实体和关系的广泛知识库
- 批准号:
10494104 - 财政年份:2021
- 资助金额:
$ 27.45万 - 项目类别:
BioPortal: An Expansive Knowledgebase of Biomedical Entities and Relations
BioPortal:生物医学实体和关系的广泛知识库
- 批准号:
10271048 - 财政年份:2021
- 资助金额:
$ 27.45万 - 项目类别:
Enhancing the RADx Data Hub for Data FAIRness
增强 RADx 数据中心以实现数据公平
- 批准号:
10699372 - 财政年份:2021
- 资助金额:
$ 27.45万 - 项目类别:
The Metadata Powerwash - Integrated tools to make biomedical data FAIR
Metadata Powerwash - 使生物医学数据公平的集成工具
- 批准号:
10093841 - 财政年份:2021
- 资助金额:
$ 27.45万 - 项目类别:
Enhancing the RADx Data Hub for Data FAIRness
增强 RADx 数据中心以实现数据公平
- 批准号:
10850055 - 财政年份:2021
- 资助金额:
$ 27.45万 - 项目类别:
相似国自然基金
“共享建筑学”的时空要素及表达体系研究
- 批准号:
- 批准年份:2019
- 资助金额:63 万元
- 项目类别:面上项目
基于城市空间日常效率的普通建筑更新设计策略研究
- 批准号:51778419
- 批准年份:2017
- 资助金额:61.0 万元
- 项目类别:面上项目
宜居环境的整体建筑学研究
- 批准号:51278108
- 批准年份:2012
- 资助金额:68.0 万元
- 项目类别:面上项目
The formation and evolution of planetary systems in dense star clusters
- 批准号:11043007
- 批准年份:2010
- 资助金额:10.0 万元
- 项目类别:专项基金项目
新型钒氧化物纳米组装结构在智能节能领域的应用
- 批准号:20801051
- 批准年份:2008
- 资助金额:18.0 万元
- 项目类别:青年科学基金项目
相似海外基金
Dynamic neural coding of spectro-temporal sound features during free movement
自由运动时谱时声音特征的动态神经编码
- 批准号:
10656110 - 财政年份:2023
- 资助金额:
$ 27.45万 - 项目类别:
Molecular Mechanisms of Mitochondrial Biogenesis
线粒体生物发生的分子机制
- 批准号:
10735778 - 财政年份:2023
- 资助金额:
$ 27.45万 - 项目类别:
Neurocognitive Mechanisms of Sentence Production Impairment in Aphasia
失语症句子产生障碍的神经认知机制
- 批准号:
10735595 - 财政年份:2023
- 资助金额:
$ 27.45万 - 项目类别:
Asian American Prevention Research: A Populomics Epidemiology Cohort (ARISE)
亚裔美国人预防研究:人口组学流行病学队列 (ARISE)
- 批准号:
10724884 - 财政年份:2023
- 资助金额:
$ 27.45万 - 项目类别:
A computational model for prediction of morphology, patterning, and strength in bone regeneration
用于预测骨再生形态、图案和强度的计算模型
- 批准号:
10727940 - 财政年份:2023
- 资助金额:
$ 27.45万 - 项目类别: