ENRICHing NIH Imaging Datasets to Prepare them for Machine Learning

丰富 NIH 成像数据集,为机器学习做好准备

基本信息

  • 批准号:
    10842910
  • 负责人:
  • 金额:
    $ 35.09万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
  • 财政年份:
    2020
  • 资助国家:
    美国
  • 起止时间:
    2020-04-01 至 2025-03-31
  • 项目状态:
    未结题

项目摘要

PROJECT SUMMARY Objective: The goal of the parent proposal is to develop and optimize deep learning (DL) to improve detection of congenital heart disease (CHD) from fetal ultrasound imaging. This work includes evaluation of an imaging collection spanning two decades, tens of thousands of patients, and several clinical centers across a range of healthcare settings. Background: Through this work, we have found that performance of DL models is critically linked to the quality of the datasets used to train and test them. However, the AI/ML field lacks a complete understanding of how to measure “quality.” To date, image datasets are either described subjectively or measured crudely by size, i.e. the number of images they contain. However, “more is better” fails to account for the key importance of diversity in the quality of image datasets. In parent Aim 1, we sought to develop better metrics for dataset quality and content, founded in information theory and leveraging diversity. This work has already proven quite useful for our parent use case, but it is also extremely important for all imaging datasets in order to save on data storage/transfer costs, harmonize data intelligently, save on laborious image labeling, screen for artifacts both anticipated and un-anticipated, and ensure diversity at several levels. Preliminary Studies: Our multi-disciplinary team in imaging, DL, and information theory has successfully developed a framework to analyze image datasets, called ENRICH. ENRICH consists of two main steps. First, a similarity metric is calculated for all pairs of images in a given dataset, forming a matrix of pairwise-similarity values. Second, an instance-selection algorithm operates on the matrix to describe its diversity and/or curate the most informative images. ENRICH is customizable in that different choices for pairwise image similarity metric and for curation algorithm can be used for different tasks. An initial implementation of ENRICH aimed at reducing redundancy allowed us to get the same DL model performance in a CHD classification task from only a fraction of the original training data. It also identified data structure and imaging artifacts without a priori labeling, among other achievements (see Research Strategy). Goals of Supplement: The next logical step is to apply ENRICH to more biomedical datasets, both to further validate its utility and to provide quantitative descriptors of quality on datasets important for the research community. Aims: (1) We will run ENRICH on several NIH imaging datasets, including (2) validating labels and adding annotations to targeted subsets of these datasets. (3) We will document and publish these methods for the research community to use, including connecting with the original NIH repository for each dataset. Environment and Impact: This work proposed is supported in an outstanding environment at the crossroads of data science, imaging, and information theory and will provide valuable tools and insight into how best to measure image dataset content and quality in order to rigorously train and test DL for biomedical tasks.
项目摘要 目的:父母建议的目标是开发和优化深度学习(DL)以改善检测 胎儿超声成像的先天性心脏病(CHD)。这项工作包括对成像的评估 跨越二十年的收集,成千上万的患者,以及多个临床中心 医疗保健设置。背景:通过这项工作,我们发现DL模型的性能是 与用于训练和测试的数据集的质量密切相关。但是,AI/ML场缺乏 完全了解如何衡量“质量”。迄今为止,图像数据集的主观描述 或用大小粗略测量,即它们包含的图像数量。但是,“更多更好”无法说明 因为多样性在图像数据集质量中的关键重要性。在父母目标1中,我们试图发展 在信息理论和利用多样性中建立的数据集质量和内容的更好的指标。这项工作 已经证明对我们的父母用例很有用,但是对于所有成像也非常重要 数据集为了节省数据存储/传输成本,智能地协调数据,保存在实验室图像上 标记,屏幕构成预期和未孕期的雕像,并确保多样性在多个层面上。 初步研究:我们的成像,DL和信息理论领域的多学科团队已成功 开发了一个框架来分析图像数据集,称为富集。丰富由两个主要步骤组成。第一的, 计算给定数据集中所有图像对的相似性度量,形成成对相似性的矩阵 值。其次,实例选择算法在矩阵上运行,以描述其多样性和/或策展人 最有用的图像。富集是可以自定义的,以对成对图像相似性的不同选择 度量和用于策展算法可用于不同的任务。针对的最初实施 降低冗余使我们仅从CHD分类任务中获得相同的DL模型性能 原始培训数据的一小部分。它还在没有先验的情况下确定了数据结构和成像伪像 标签,除其他成就(请参阅研究策略)。补充目标:下一个逻辑步骤是 要应用于更多的生物医学数据集,以进一步验证其效用并提供定量 数据集质量的描述对研究界很重要。目的:(1)我们将富裕 几个NIH成像数据集,包括(2)验证标签并将注释添加到目标子集中 这些数据集。 (3)我们将记录并发布这些方法供研究界使用,包括 与每个数据集的原始NIH存储库连接。环境与影响:提出的这项工作是 在数据科学,成像和信息理论的十字路口的杰出环境中得到支持 并将提供有价值的工具,并了解如何最好地测量图像数据集内容和质量 严格训练和测试DL的生物医学任务。

项目成果

期刊论文数量(12)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Visualizing omicron: COVID-19 deaths vs. cases over time.
  • DOI:
    10.1371/journal.pone.0265233
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    3.7
  • 作者:
  • 通讯作者:
The (Heart and) Soul of a Human Creation: Designing Echocardiography for the Big Data Age.
人类创造的(心和)灵魂:为大数据时代设计超声心动图。
Mitral Valve Atlas for Artificial Intelligence Predictions of MitraClip Intervention Outcomes.
  • DOI:
    10.3389/fcvm.2021.759675
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    3.6
  • 作者:
    Dabiri Y;Yao J;Mahadevan VS;Gruber D;Arnaout R;Gentzsch W;Guccione JM;Kassab GS
  • 通讯作者:
    Kassab GS
An ensemble of neural networks provides expert-level prenatal detection of complex congenital heart disease.
  • DOI:
    10.1038/s41591-021-01342-5
  • 发表时间:
    2021-05
  • 期刊:
  • 影响因子:
    82.9
  • 作者:
    Arnaout R;Curran L;Zhao Y;Levine JC;Chinn E;Moon-Grady AJ
  • 通讯作者:
    Moon-Grady AJ
Domain-guided data augmentation for deep learning on medical imaging.
用于医学成像深度学习的领域引导数据增强。
  • DOI:
    10.1371/journal.pone.0282532
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    3.7
  • 作者:
  • 通讯作者:
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Rima Arnaout其他文献

Rima Arnaout的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Rima Arnaout', 18)}}的其他基金

Developing FAIR practices for cloud-enabled AI deployment for prospective testing
为基于云的人工智能部署制定公平实践以进行前瞻性测试
  • 批准号:
    10827803
  • 财政年份:
    2023
  • 资助金额:
    $ 35.09万
  • 项目类别:
Improving cardiovascular image-based phenotyping using emerging methods in artificial intelligence
使用人工智能新兴方法改善基于心血管图像的表型分析
  • 批准号:
    10379426
  • 财政年份:
    2020
  • 资助金额:
    $ 35.09万
  • 项目类别:
Improving cardiovascular image-based phenotyping using emerging methods in artificial intelligence
使用人工智能新兴方法改善基于心血管图像的表型分析
  • 批准号:
    10608075
  • 财政年份:
    2020
  • 资助金额:
    $ 35.09万
  • 项目类别:
Genetics and Structure of Trabecular Myocardium in Development and Disease
发育和疾病中小梁心肌的遗传学和结构
  • 批准号:
    9764455
  • 财政年份:
    2015
  • 资助金额:
    $ 35.09万
  • 项目类别:
Genetics and Structure of Trabecular Myocardium in Development and Disease
发育和疾病中小梁心肌的遗传学和结构
  • 批准号:
    8967119
  • 财政年份:
    2015
  • 资助金额:
    $ 35.09万
  • 项目类别:
Genetic Analyst of Early Conduction System Development
早期传导系统开发的遗传分析
  • 批准号:
    8202805
  • 财政年份:
    2011
  • 资助金额:
    $ 35.09万
  • 项目类别:
Genetic Analyst of Early Conduction System Development
早期传导系统开发的遗传分析
  • 批准号:
    8316460
  • 财政年份:
    2011
  • 资助金额:
    $ 35.09万
  • 项目类别:

相似国自然基金

基于“人工智能算法+高精度遥感数据”的棉花表型信息识别及解析
  • 批准号:
    32360436
  • 批准年份:
    2023
  • 资助金额:
    32 万元
  • 项目类别:
    地区科学基金项目
人工智能反馈寻求行为的驱动机制和双刃剑效应研究
  • 批准号:
    72302082
  • 批准年份:
    2023
  • 资助金额:
    30.00 万元
  • 项目类别:
    青年科学基金项目
面向智能电网用户侧的智能优化调度和人工智能算法安全研究
  • 批准号:
    62373297
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目
人工智能算法嵌入街头官僚决策的行为效应及其认知触发机制研究
  • 批准号:
    72304110
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
基于生成式人工智能的易合成与高生物活性的分子三维结构设计
  • 批准号:
    22373085
  • 批准年份:
    2023
  • 资助金额:
    50.00 万元
  • 项目类别:
    面上项目

相似海外基金

Enhancing the Cloud-Readiness of Perceptual Computing Through Data Standardization Software
通过数据标准化软件增强感知计算的云就绪性
  • 批准号:
    10609245
  • 财政年份:
    2022
  • 资助金额:
    $ 35.09万
  • 项目类别:
CRCNS: Resolving human face perception with novel MEG source localization methods
CRCNS:利用新颖的 MEG 源定位方法解决人脸感知问题
  • 批准号:
    10397180
  • 财政年份:
    2021
  • 资助金额:
    $ 35.09万
  • 项目类别:
Patient-specific, high-sensitivity spectral CT for assessment of pancreatic cancer
用于评估胰腺癌的患者特异性高灵敏度能谱 CT
  • 批准号:
    10491791
  • 财政年份:
    2021
  • 资助金额:
    $ 35.09万
  • 项目类别:
Patient-specific, high-sensitivity spectral CT for assessment of pancreatic cancer
用于评估胰腺癌的患者特异性高灵敏度能谱 CT
  • 批准号:
    10296757
  • 财政年份:
    2021
  • 资助金额:
    $ 35.09万
  • 项目类别:
CRCNS: Resolving human face perception with novel MEG source localization methods
CRCNS:利用新颖的 MEG 源定位方法解决人脸感知问题
  • 批准号:
    10686286
  • 财政年份:
    2021
  • 资助金额:
    $ 35.09万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了