Guiding humans to create better labeled datasets for machine learning in biomedical research
指导人类为生物医学研究中的机器学习创建更好的标记数据集
基本信息
- 批准号:10646429
- 负责人:
- 金额:$ 39.97万
- 依托单位:
- 依托单位国家:美国
- 项目类别:
- 财政年份:2021
- 资助国家:美国
- 起止时间:2021-09-01 至 2025-05-31
- 项目状态:未结题
- 来源:
- 关键词:Active LearningAddressAlgorithmsBayesian neural networkBiologicalBiomedical ResearchClassificationClinical InformaticsClinical ResearchClinical TrialsCodeCollaborationsCommunitiesComputer SystemsComputer softwareDataData ScientistData SetDatabasesDedicationsEnvironmentFaceFetal healthFundingGrowthHigh Performance ComputingHistologicHumanImageInstitutionK-Series Research Career ProgramsKnowledgeLabelLearningMachine LearningMaternal HealthMeasurementMethodologyMethodsNatural Language ProcessingPathologistPathologyPatternPerformancePerinatalPlacentaProcessRecording of previous eventsReproducibilityResearchResearch PersonnelResourcesSamplingScienceSiteSoftware FrameworkSoftware ToolsSourceStructureTissue imagingTrainingUnited States National Library of MedicineWorkalgorithm trainingbasecloud platformcohortcomputing resourcesdeep learningdeep learning algorithmdigital pathologyexperiencefeature extractionhands-on learninghuman-in-the-loopimprovedlarge datasetslearning strategymachine learning algorithmmachine learning modelmalignant breast neoplasmmultidimensional datanovel strategiesopen sourcepathology imagingpublic health relevancerepositorysimulationsoftware developmenttooltool developmentunsupervised learningwhole slide imaging
项目摘要
PROJECT SUMMARY / ABSTRACT
Machine learning (ML) has seen tremendous advances in the past decade, fueled by growth in computing and
the availability of large labeled datasets. While the impact of these advances on clinical and biomedical
research are potentially significant, these applications face unique challenges due to the difficulty in acquiring
labels from biomedical experts. Furthermore, ML algorithms often fail to generalize across institutions or
datasets due to measurement biases (e.g. MR scanners) or intrinsic demographic or biological differences
between cohorts / datasets which limits their impact in biomedical science. This proposal will develop new
methodology and open-source software that biomedical data scientists can use with their applications to 1.
Improve data labeling by identifying the best samples for labeling that provide the most benefit for training ML
algorithms; 2. Improve generalization of ML models across institutes; and 3. Perform this work on scalable
cloud platforms. We will first explore how to improve upon methods known as active learning that interactively
construct labeled datasets by having an algorithm select samples that address its weaknesses and present
these samples to an expert for labeling. We will then investigate how these samples can be selected to
improve the performance of ML algorithms across multiple institutions by learning robust patterns that are not
specific to any one site. Finally, we will develop an extendable software framework that developers can
integrate into their own applications to take advantage of these methods, and that can operate on cloud
platforms to support scalable analysis of large datasets. This work will be developed through a combination of
simulation studies using a unique repository of over 280,000 human markups of digital pathology images at
multiple institutions, and also user studies of the developed software frameworks focused on applications in
perinatal pathology and the human placenta. The software tools will impact a broad variety of biomedical
applications beyond pathology where data labeling and multi-institutional studies remain challenging.
项目概要/摘要
在计算和技术发展的推动下,机器学习 (ML) 在过去十年中取得了巨大进步
大型标记数据集的可用性。虽然这些进步对临床和生物医学的影响
研究具有潜在的重要意义,但由于获取困难,这些应用面临着独特的挑战
生物医学专家的标签。此外,机器学习算法通常无法跨机构或
由于测量偏差(例如 MR 扫描仪)或固有的人口统计或生物学差异而产生的数据集
队列/数据集之间的差异限制了它们在生物医学科学中的影响。该提案将开发新的
生物医学数据科学家可以在其应用程序中使用的方法和开源软件 1.
通过识别为训练 ML 提供最大益处的最佳标记样本来改进数据标记
算法; 2. 提高跨机构机器学习模型的泛化能力; 3. 在可扩展的基础上执行这项工作
云平台。我们将首先探讨如何改进称为主动学习的方法,该方法以交互方式进行
通过让算法选择解决其弱点并呈现的样本来构建标记数据集
将这些样品交给专家进行标记。然后我们将研究如何选择这些样本
通过学习非结构化的稳健模式,提高跨多个机构的 ML 算法的性能
特定于任何一个站点。最后,我们将开发一个可扩展的软件框架,开发人员可以
集成到自己的应用程序中以利用这些方法,并且可以在云上运行
支持大型数据集可扩展分析的平台。这项工作将通过以下方面的结合来开发
使用包含超过 280,000 个数字病理图像人工标记的独特存储库进行模拟研究
多个机构,以及开发的软件框架的用户研究,重点关注应用程序
围产期病理学和人类胎盘。这些软件工具将影响广泛的生物医学领域
病理学之外的应用,其中数据标记和多机构研究仍然具有挑战性。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Lee Cooper其他文献
Lee Cooper的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Lee Cooper', 18)}}的其他基金
Brain Digital Slide Archive: An Open Source Platform for data sharing and analysis of digital neuropathology
Brain Digital Slide Archive:数字神经病理学数据共享和分析的开源平台
- 批准号:
10735564 - 财政年份:2023
- 资助金额:
$ 39.97万 - 项目类别:
Improved whole-brain spectroscopic MRI for radiation therapy planning
改进的全脑光谱 MRI 用于放射治疗计划
- 批准号:
10618320 - 财政年份:2022
- 资助金额:
$ 39.97万 - 项目类别:
Improved whole-brain spectroscopic MRI for radiation therapy planning
改进的全脑光谱 MRI 用于放射治疗计划
- 批准号:
10443355 - 财政年份:2022
- 资助金额:
$ 39.97万 - 项目类别:
Guiding humans to create better labeled datasets for machine learning in biomedical research
指导人类为生物医学研究中的机器学习创建更好的标记数据集
- 批准号:
10609284 - 财政年份:2021
- 资助金额:
$ 39.97万 - 项目类别:
Guiding humans to create better labeled datasets for machine learning in biomedical research
指导人类为生物医学研究中的机器学习创建更好的标记数据集
- 批准号:
10466914 - 财政年份:2021
- 资助金额:
$ 39.97万 - 项目类别:
Guiding humans to create better labeled datasets for machine learning in biomedical research
指导人类为生物医学研究中的机器学习创建更好的标记数据集
- 批准号:
10298684 - 财政年份:2021
- 资助金额:
$ 39.97万 - 项目类别:
Cloud strategies for improving cost, scalability, and accessibility of a machine learning system for pathology images
用于提高病理图像机器学习系统的成本、可扩展性和可访问性的云策略
- 批准号:
10824959 - 财政年份:2021
- 资助金额:
$ 39.97万 - 项目类别:
Informatics Tools for Quantitative Digital Pathology Profiling and Integrated Prognostic Modeling
用于定量数字病理学分析和综合预后建模的信息学工具
- 批准号:
10070213 - 财政年份:2018
- 资助金额:
$ 39.97万 - 项目类别:
Improved Whole-Brain Spectroscopic MRI for Radiation Treatment Planning
改进的全脑光谱 MRI 用于放射治疗计划
- 批准号:
9791190 - 财政年份:2018
- 资助金额:
$ 39.97万 - 项目类别:
Informatics Tools for Quantitative Digital Pathology Profiling and Integrated Prognostic Modeling
用于定量数字病理学分析和综合预后建模的信息学工具
- 批准号:
9929565 - 财政年份:2018
- 资助金额:
$ 39.97万 - 项目类别:
相似国自然基金
时空序列驱动的神经形态视觉目标识别算法研究
- 批准号:61906126
- 批准年份:2019
- 资助金额:24.0 万元
- 项目类别:青年科学基金项目
本体驱动的地址数据空间语义建模与地址匹配方法
- 批准号:41901325
- 批准年份:2019
- 资助金额:22.0 万元
- 项目类别:青年科学基金项目
大容量固态硬盘地址映射表优化设计与访存优化研究
- 批准号:61802133
- 批准年份:2018
- 资助金额:23.0 万元
- 项目类别:青年科学基金项目
针对内存攻击对象的内存安全防御技术研究
- 批准号:61802432
- 批准年份:2018
- 资助金额:25.0 万元
- 项目类别:青年科学基金项目
IP地址驱动的多径路由及流量传输控制研究
- 批准号:61872252
- 批准年份:2018
- 资助金额:64.0 万元
- 项目类别:面上项目
相似海外基金
Computer-Aided Triage of Body CT Scans with Deep Learning
利用深度学习对身体 CT 扫描进行计算机辅助分类
- 批准号:
10585553 - 财政年份:2023
- 资助金额:
$ 39.97万 - 项目类别:
Programmable peptide-guided protein degradation
可编程肽引导的蛋白质降解
- 批准号:
10741655 - 财政年份:2023
- 资助金额:
$ 39.97万 - 项目类别:
Developing a Childhood Asthma Risk Passive Digital Marker
开发儿童哮喘风险被动数字标记
- 批准号:
10571461 - 财政年份:2023
- 资助金额:
$ 39.97万 - 项目类别:
Association of Phenotypes and Genotype with Treatment Response in Psoriatic Arthritis
表型和基因型与银屑病关节炎治疗反应的关联
- 批准号:
10723557 - 财政年份:2023
- 资助金额:
$ 39.97万 - 项目类别:
A deep learning algorithm to detect signs of cognitive impairment in electronic health records
用于检测电子健康记录中认知障碍迹象的深度学习算法
- 批准号:
10900991 - 财政年份:2023
- 资助金额:
$ 39.97万 - 项目类别: