Assuring AI/ML-readiness of digital pathology in diverse existing and emerging multi-omic datasets through quality control workflows
通过质量控制工作流程,确保现有和新兴的多组学数据集中数字病理学的 AI/ML 就绪性
基本信息
- 批准号:10841333
- 负责人:
- 金额:$ 27万
- 依托单位:
- 依托单位国家:美国
- 项目类别:
- 财政年份:2022
- 资助国家:美国
- 起止时间:2022-09-14 至 2024-08-31
- 项目状态:已结题
- 来源:
- 关键词:AdoptionAreaArtificial IntelligenceBasic ScienceBiomedical ResearchBiopsyClassificationClinicalClinical ResearchCollaborationsDataData CommonsData SetDepositionDevelopmentDiagnosisDivision of Cancer BiologyDropsEnsureEvaluationExclusionFAIR principlesFailureFundingFutureGenotypeGenotype-Tissue Expression ProjectGrantHealth ResourcesHistologyImageInferiorInfrastructureLearningLinkMachine LearningManualsMasksModelingMorphologic artifactsMorphologyMultiomic DataNational Cancer InstituteNephrotic SyndromeOutputPerformancePlayProcessPrognosisQuality ControlReaderReadinessReportingReproducibilityResearchResearch PersonnelRoleSamplingScienceSlideSynapsesTechniquesThe Cancer Genome AtlasTimeTissuesTrainingTranslational ResearchTrustUnited States National Institutes of HealthUniversitiesValidationWorkanticancer researchbiomarker discoverycohortcomparativecostdata managementdata miningdata qualitydata sharingdeep learningdigital pathologygeneralist repositoryhistological imageimaging biomarkerimaging detectionimprovedinterestmachine learning methodmachine learning modelmultiple omicsopen dataopen sourceparent grantprogramsprospectiveprototypepublic repositoryrepositorysuccesstooltreatment responsewhole slide imaging
项目摘要
Abstract
In an era of multi-omics, histology remains an essential approach for basic, translational, and clinical research
providing valuable, low-cost, and non-destructive information about tissue morphology. The adoption of whole
slide imaging (WSI) and digital pathology (DP) has led to large clinical and research repositories being
instantiated for computational data mining of image-based biomarkers associated with genotype, diagnosis,
prognosis, and therapy response. Importantly, data quality plays a critical role in the usage of these WSI,
especially when employing artificial intelligence (AI) and machine learning (ML) methods. Artifacts and batch
effects may arise at many points in the process from biopsy to digitization, and while several tools to detect them
have been developed, consistent application and reporting are lacking, with none being routinely applied in public
repositories. This leaves a unique opportunity to immediately provide added value to existing and future NIH-
supported datasets. This proposal sees a collaboration between Sage Bionetworks, experts in FAIR data sharing
and Team Science, and Dr. Andrew Janowczyk, a leader in automated quality control (QC) of WSI who has
spearheaded the development of an open-source DP QC tool, HistoQC. We propose to enhance the AI/ML
readiness of existing and future DP data by providing transparent, reproducible, reporting of detected imaging
artifacts and batch effects within NIH-sponsored datasets in an automated fashion via the extension of our
existing QC workflows. Implementing transparent reporting of DP data quality will enable researchers to exclude
artifacts from their training sets in a consistent cross-investigator manner. Our work will provide greater trust in
dataset reuse and experimental reproducibility while also easing AI/ML model creation and enhancing their
performance. We will build on strong preliminary data and prototypes, demonstrating both significantly improved
cross-reader QC reproducibility and technical feasibility, with three specific aims. Aim 1 sees this enrichment
process will be applied to WSI from NIH-supported public datasets, including TCGA and GTEx, and for NIH/NCI
Division of Cancer Biology research programs supported by the Multi-Consortia Coordinating (MC2) Center
parent grant. Aim 2 employs the lessons learned from the enhancement of raw DP data to be AI/ML ready in
Aim 1 to deploy a scalable workflow for QC of all incoming DP data from MC2-supported programs, providing
continual prospective data enrichment to assure AI/ML readiness. Lastly, Aim 3 demonstrates enhanced AI/ML
readiness of DP data subjected to our automated QC processes using a prototypical self-supervised tissue
classification task. Our deliverables include (a) 5000 WSI annotated by our QC workflow and enhanced into
AI/ML ready datasets; (b) workflows to enable processing of incoming datasets for AI-readiness, (c) a failure rate
of identifying poor quality slides is <1%; and (d) our QC comparative AI/ML demonstration yields an improvement
of >10% performance in terms of tissue classification performance as a result of our data enhancements.
抽象的
在多组学时代,组织学仍然是基础、转化和临床研究的重要方法
提供有关组织形态的有价值的、低成本的、非破坏性的信息。整体采用
幻灯片成像 (WSI) 和数字病理学 (DP) 已导致大型临床和研究存储库
实例化用于与基因型、诊断相关的基于图像的生物标志物的计算数据挖掘,
预后和治疗反应。重要的是,数据质量在这些 WSI 的使用中起着至关重要的作用,
尤其是在采用人工智能(AI)和机器学习(ML)方法时。工件和批次
从活检到数字化的过程中,许多点可能会出现影响,而检测这些影响的工具有多种
已开发出来,但缺乏一致的应用和报告,没有一个在公共场合常规应用
存储库。这留下了一个独特的机会,可以立即为现有和未来的 NIH 提供附加值
支持的数据集。该提案见证了 FAIR 数据共享专家 Sage Bionetworks 之间的合作
和 Team Science,以及 WSI 自动化质量控制 (QC) 领域的领导者 Andrew Janowczyk 博士,他
率先开发了开源 DP QC 工具 HistoQC。我们建议加强人工智能/机器学习
通过提供透明、可重复的检测成像报告,为现有和未来的 DP 数据做好准备
通过我们的扩展,以自动化的方式在 NIH 赞助的数据集中生成工件和批次效应
现有的 QC 工作流程。实施透明的 DP 数据质量报告将使研究人员能够排除
以一致的跨研究者方式从他们的训练集中提取工件。我们的工作将给大家带来更大的信任
数据集重用和实验再现性,同时还简化了 AI/ML 模型的创建并增强了它们的性能
表现。我们将建立在强大的初步数据和原型的基础上,展示两者的显着改进
跨阅读器质量控制重现性和技术可行性,具有三个具体目标。目标 1 看到了这种丰富
流程将应用于来自 NIH 支持的公共数据集(包括 TCGA 和 GTEx)的 WSI,以及 NIH/NCI
多联盟协调 (MC2) 中心支持的癌症生物学研究项目
家长补助金。目标 2 利用从增强原始 DP 数据中汲取的经验教训,为 AI/ML 做好准备
目标 1 部署一个可扩展的工作流程,用于对来自 MC2 支持的程序的所有传入 DP 数据进行质量控制,提供
持续的前瞻性数据丰富,以确保 AI/ML 做好准备。最后,Aim 3 展示了增强的 AI/ML
使用原型自监督组织,DP 数据已准备好接受我们的自动化 QC 流程
分类任务。我们的可交付成果包括 (a) 5000 WSI,由我们的 QC 工作流程注释并增强为
AI/ML 就绪数据集; (b) 能够处理传入数据集以做好 AI 准备的工作流程,(c) 故障率
识别劣质载玻片的比例 <1%; (d) 我们的 QC 比较 AI/ML 演示取得了进步
由于我们的数据增强,在组织分类性能方面的性能超过 10%。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Julie Ann Bletz其他文献
Julie Ann Bletz的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Julie Ann Bletz', 18)}}的其他基金
Spatial Transcriptomics Explorer (STE): An open-source resource for visualizing spatial gene expression data
Spatial Transcriptomics Explorer (STE):用于可视化空间基因表达数据的开源资源
- 批准号:
10830668 - 财政年份:2022
- 资助金额:
$ 27万 - 项目类别:
Multi-Consortia Coordinating Center (MC2 Center) for Cancer Biology: Building Interdisciplinary Scientific Communities, Coordinating Impactful Resource Sharing, and Advancing Cancer Research
癌症生物学多联盟协调中心(MC2 中心):建立跨学科科学社区、协调有影响力的资源共享并推进癌症研究
- 批准号:
10525124 - 财政年份:2022
- 资助金额:
$ 27万 - 项目类别:
Coordinating Sustainable Open Resource Sharing and Collaboration in Cancer Research
协调癌症研究中的可持续开放资源共享与合作
- 批准号:
10400971 - 财政年份:2016
- 资助金额:
$ 27万 - 项目类别:
相似国自然基金
蛋白法尼基化修饰对水稻边界区域和腋生分生组织发育的调控机制
- 批准号:32300312
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
基于能动性-结构组态效应的区域创业活动空间依赖与突破
- 批准号:42371173
- 批准年份:2023
- 资助金额:46 万元
- 项目类别:面上项目
包含低序列复杂度区域蛋白质相分离的跨尺度构象关联性研究
- 批准号:22303060
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
基于原位检-监测协同的大面积表层混凝土传输性能劣化区域快速识别方法研究
- 批准号:52378218
- 批准年份:2023
- 资助金额:50 万元
- 项目类别:面上项目
面向复杂应急区域的移动基站信号覆盖问题研究
- 批准号:72301209
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
相似海外基金
Real-time Prediction of Adverse Outcomes After Surgery
实时预测手术后不良后果
- 批准号:
10724048 - 财政年份:2023
- 资助金额:
$ 27万 - 项目类别:
Dynamic single-cell analysis instrument to evaluate immune cell function
动态单细胞分析仪评估免疫细胞功能
- 批准号:
10699036 - 财政年份:2023
- 资助金额:
$ 27万 - 项目类别:
Evaluating the feasibility of an innovative point-of-care screening tool for detection of infant motor delay within the newborn period
评估用于检测新生儿时期婴儿运动迟缓的创新护理点筛查工具的可行性
- 批准号:
10742419 - 财政年份:2023
- 资助金额:
$ 27万 - 项目类别:
Neural Conversational Agent for Automated Weight Loss Counseling
用于自动减肥咨询的神经对话代理
- 批准号:
10668094 - 财政年份:2023
- 资助金额:
$ 27万 - 项目类别:
Bioethical, Legal, and Anthropological Study of Technologies (BLAST)
技术的生物伦理、法律和人类学研究 (BLAST)
- 批准号:
10831226 - 财政年份:2023
- 资助金额:
$ 27万 - 项目类别: