Assuring AI/ML-readiness of digital pathology in diverse existing and emerging multi-omic datasets through quality control workflows

通过质量控制工作流程,确保现有和新兴的多组学数据集中数字病理学的 AI/ML 就绪性

基本信息

  • 批准号:
    10841333
  • 负责人:
  • 金额:
    $ 27万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
  • 财政年份:
    2022
  • 资助国家:
    美国
  • 起止时间:
    2022-09-14 至 2024-08-31
  • 项目状态:
    已结题

项目摘要

Abstract In an era of multi-omics, histology remains an essential approach for basic, translational, and clinical research providing valuable, low-cost, and non-destructive information about tissue morphology. The adoption of whole slide imaging (WSI) and digital pathology (DP) has led to large clinical and research repositories being instantiated for computational data mining of image-based biomarkers associated with genotype, diagnosis, prognosis, and therapy response. Importantly, data quality plays a critical role in the usage of these WSI, especially when employing artificial intelligence (AI) and machine learning (ML) methods. Artifacts and batch effects may arise at many points in the process from biopsy to digitization, and while several tools to detect them have been developed, consistent application and reporting are lacking, with none being routinely applied in public repositories. This leaves a unique opportunity to immediately provide added value to existing and future NIH- supported datasets. This proposal sees a collaboration between Sage Bionetworks, experts in FAIR data sharing and Team Science, and Dr. Andrew Janowczyk, a leader in automated quality control (QC) of WSI who has spearheaded the development of an open-source DP QC tool, HistoQC. We propose to enhance the AI/ML readiness of existing and future DP data by providing transparent, reproducible, reporting of detected imaging artifacts and batch effects within NIH-sponsored datasets in an automated fashion via the extension of our existing QC workflows. Implementing transparent reporting of DP data quality will enable researchers to exclude artifacts from their training sets in a consistent cross-investigator manner. Our work will provide greater trust in dataset reuse and experimental reproducibility while also easing AI/ML model creation and enhancing their performance. We will build on strong preliminary data and prototypes, demonstrating both significantly improved cross-reader QC reproducibility and technical feasibility, with three specific aims. Aim 1 sees this enrichment process will be applied to WSI from NIH-supported public datasets, including TCGA and GTEx, and for NIH/NCI Division of Cancer Biology research programs supported by the Multi-Consortia Coordinating (MC2) Center parent grant. Aim 2 employs the lessons learned from the enhancement of raw DP data to be AI/ML ready in Aim 1 to deploy a scalable workflow for QC of all incoming DP data from MC2-supported programs, providing continual prospective data enrichment to assure AI/ML readiness. Lastly, Aim 3 demonstrates enhanced AI/ML readiness of DP data subjected to our automated QC processes using a prototypical self-supervised tissue classification task. Our deliverables include (a) 5000 WSI annotated by our QC workflow and enhanced into AI/ML ready datasets; (b) workflows to enable processing of incoming datasets for AI-readiness, (c) a failure rate of identifying poor quality slides is <1%; and (d) our QC comparative AI/ML demonstration yields an improvement of >10% performance in terms of tissue classification performance as a result of our data enhancements.
抽象的 在一个多词的时代,组织学仍然是基础,转化和临床研究的重要方法 提供有关组织形态的有价值,低成本和非破坏性信息。整体的采用 幻灯片成像(WSI)和数字病理学(DP)导致大量的临床和研究存储库是 实例化了与基因型,诊断,基于图像的生物标志物的计算数据挖掘 预后和治疗反应。重要的是,数据质量在这些WSI的使用中起着至关重要的作用, 特别是在采用人工智能(AI)和机器学习(ML)方法时。文物和批处理 从活检到数字化的过程中,效果可能在许多方面产生,而几种用于检测它们的工具 已经开发了,缺乏一致的应用和报告,没有例行应用于公众 存储库。这留下了一个独特的机会,可以立即为现有和未来的NIH提供附加价值 支持的数据集。该建议看到Sage Bionetworks(公平数据共享专家)之间的合作 和团队科学,以及WSI自动化质量控制(QC)的领导者Andrew Janowczyk博士 带领开源DP QC工具HistoQC的开发。我们建议增强AI/ML 通过提供透明,可重复的报告,对现有和未来的DP数据的准备就绪 通过扩展我们 现有的QC工作流程。实施DP数据质量的透明报告将使研究人员排除 他们的训练集以一致的交叉评估方式进行。我们的工作将提供更大的信任 数据集的重复使用和实验性可重复性,同时还可以轻松创建AI/ML模型并增强其 表现。我们将建立在强大的初步数据和原型的基础上,证明两者都得到了显着改善 跨阅读器QC的可重复性和技术可行性,具有三个具体目标。 AIM 1看到这个丰富 流程将从NIH支持的公共数据集(包括TCGA和GTEX)以及NIH/NCI中应用于WSI 癌症生物学研究计划的部门由多康斯比特协调(MC2)中心支持 父母赠款。 AIM 2采用从原始DP数据的增强中学到的经验教训,以准备AI/ML 目的1以从MC2支持的程序中为所有传入的DP数据部署可扩展的工作流程,提供 持续的前瞻性数据丰富,以确保AI/ML准备就绪。最后,AIM 3展示了增强的AI/ML 使用典型的自我监视组织进行自动化QC过程的DP数据准备就绪 分类任务。我们的可交付成果包括(a)5000 WSI,由我们的QC工作流注释,并增强到 AI/ML就绪数据集; (b)工作流程以启用传入数据集以进行AI RERVINESS,(c)失败率 识别质量差的幻灯片<1%; (d)我们的QC比较AI/ML演示得出的改善 由于我们的数据增强,在组织分类性能方面的性能> 10%。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Julie Ann Bletz其他文献

Julie Ann Bletz的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Julie Ann Bletz', 18)}}的其他基金

Multi-Consortia Coordinating Center (MC2 Center) for Cancer Biology: Building Interdisciplinary Scientific Communities, Coordinating Impactful Resource Sharing, and Advancing Cancer Research
癌症生物学多联盟协调中心(MC2 中心):建立跨学科科学社区、协调有影响力的资源共享并推进癌症研究
  • 批准号:
    10525124
  • 财政年份:
    2022
  • 资助金额:
    $ 27万
  • 项目类别:
Spatial Transcriptomics Explorer (STE): An open-source resource for visualizing spatial gene expression data
Spatial Transcriptomics Explorer (STE):用于可视化空间基因表达数据的开源资源
  • 批准号:
    10830668
  • 财政年份:
    2022
  • 资助金额:
    $ 27万
  • 项目类别:
Coordinating Sustainable Open Resource Sharing and Collaboration in Cancer Research
协调癌症研究中的可持续开放资源共享与合作
  • 批准号:
    10400971
  • 财政年份:
    2016
  • 资助金额:
    $ 27万
  • 项目类别:
An antiviral role for poly(ADP-ribosyl)ation
聚(ADP-核糖基)化的抗病毒作用
  • 批准号:
    7407068
  • 财政年份:
    2008
  • 资助金额:
    $ 27万
  • 项目类别:

相似国自然基金

秦岭生态效益转化与区域绿色发展模式
  • 批准号:
    72349001
  • 批准年份:
    2023
  • 资助金额:
    200 万元
  • 项目类别:
    专项基金项目
我国西南地区节点城市在次区域跨国城市网络中的地位、功能和能级提升研究
  • 批准号:
    72364037
  • 批准年份:
    2023
  • 资助金额:
    28 万元
  • 项目类别:
    地区科学基金项目
农产品区域公用品牌地方政府干预机制与政策优化研究
  • 批准号:
    72373068
  • 批准年份:
    2023
  • 资助金额:
    41 万元
  • 项目类别:
    面上项目
政府数据开放与资本跨区域流动:影响机理与经济后果
  • 批准号:
    72302091
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

Bioethical, Legal, and Anthropological Study of Technologies (BLAST)
技术的生物伦理、法律和人类学研究 (BLAST)
  • 批准号:
    10831226
  • 财政年份:
    2023
  • 资助金额:
    $ 27万
  • 项目类别:
Accelerating genomic analysis for time critical clinical applications
加速时间紧迫的临床应用的基因组分析
  • 批准号:
    10593480
  • 财政年份:
    2023
  • 资助金额:
    $ 27万
  • 项目类别:
Evaluating the feasibility of an innovative point-of-care screening tool for detection of infant motor delay within the newborn period
评估用于检测新生儿时期婴儿运动迟缓的创新护理点筛查工具的可行性
  • 批准号:
    10742419
  • 财政年份:
    2023
  • 资助金额:
    $ 27万
  • 项目类别:
3D force sensing insoles for wearable, AI empowered, high-fidelity gait monitoring
3D 力传感鞋垫,用于可穿戴、人工智能支持的高保真步态监控
  • 批准号:
    10688715
  • 财政年份:
    2023
  • 资助金额:
    $ 27万
  • 项目类别:
Real-time Prediction of Adverse Outcomes After Surgery
实时预测手术后不良后果
  • 批准号:
    10724048
  • 财政年份:
    2023
  • 资助金额:
    $ 27万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了