Correcting biases in deep learning models

纠正深度学习模型中的偏差

基本信息

  • 批准号:
    10584314
  • 负责人:
  • 金额:
    $ 34.44万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
  • 财政年份:
    2023
  • 资助国家:
    美国
  • 起止时间:
    2023-01-20 至 2027-12-31
  • 项目状态:
    未结题

项目摘要

Project Summary/Abstract Deep learning (DL) has been widely applied across all life sciences to construct predictive models. However, it relies on the assumption that training samples are independent and identically distributed. This is frequently violated in the life sciences, where data is “grouped” by measurements from the same sample (patient, cell, tissue), by the same observer, or at the same site. This leads to clusters of correlated data (random effects), and when the models are fit to such data, the model parameters can be severely biased, leading to type I and II errors. Proper accounting for such dependencies in DL models has gone unsolved. The objective of this proposal is to develop the appropriate DL modifications to separately model global fixed effects and random effects that increase model interpretability and performance for precise unbiased predictions related to human disease. Our proposal is based on a novel, model-agnostic framework to transform conventional DL models into proper mixed effects DL (MEDL) models. This affords capabilities of statistical linear mixed effects models, including the separation of cluster-invariant fixed effects from cluster-specific random effects, while preserving the ability of DL to learn data-driven nonlinear associations. The core premise is that proper MEDL models 1) are more resilient to confounding effects and more attentive to true predictive features, 2) can capture, quantify, and visualize random effects to enhance interpretability, and 3) attain better generalization to new clusters. We propose to incorporate MEDL into three of the most important DL model types including dense feed-forward neural networks (DFNNs), convolutional neural networks (CNNs), and autoencoders. Our preliminary results demonstrate multiple advantages of MEDL over conventional DL in both accuracy and interpretability. MEDL outperforms previous clustered data approaches including: domain adversarial models, meta-learning, and the inclusion of cluster membership as an input covariate. We developed an ME-DFNN to predict conversion from mild cognitive impairment to Alzheimer’s Disease (AD) from tabular data, an ME-CNN to diagnose AD from MRI, and an ME-autoencoder to compress and classify live cell images. Across these test cases, MEDL models were the most discriminative between known confounded and real features; they were able to quantify or visualize the random effects and outperformed other models on clusters both seen and unseen during training. This proposal further develops the methods to handle complex architectures and hierarchical effects, with external validation, through these aims: 1) Develop ME-DFNNs for classification and regression. 2) Develop 3D ME-CNNs and multi- modal 3D ME-CNNs for medical image classification. 3) Develop convolutional and vector ME-autoencoders for image and omics data. We describe the innovative incorporation of an adversarial classifier to constrain the base model to learn fixed effects, a Bayesian random effects subnetwork, and an approach to apply random effects to unseen clusters. All these solutions will be released as open source software that improve existing DL models to ultimately support precision biomedicine for the study and treatment of human disease.
项目摘要/摘要 深度学习(DL)已广泛应用于所有生命科学,以构建预测模型。但是,它 依赖于训练样本是独立且分布相同的假设。这是经常的 在生命科学中违反了数据,其中数据是通过同一样本的测量来“分组”的(患者,细胞, 组织),由同一观察者或在同一位置。这导致相关数据(随机效应)和 当模型适合此类数据时,模型参数可能会严重偏置,从而导致I型和II型 错误。 DL模型中此类依赖关系的适当会计尚未解决。该提议的目的 是为了开发适当的DL修改,以分别对全局固定效应和随机效应进行建模 增加模型的可解释性和性能,以提供与人类疾病有关的精确无偏见的预测。 我们的建议基于一个新颖的,模型的不合SNOSTIC框架,将常规DL模型转换为适当的 混合效应DL(MEDL)模型。这提供了统计线性混合效应模型的功能,包括 群集不变的固定效应与集群特异性随机效应的分离,同时保留能力 DL学习数据驱动的非线性关联。核心前提是正确的MEDL模型1)更多 对混杂效应的弹性,更专注于真正的预测特征,2)可以捕获,量化和 可视化随机效应以增强可解释性,3)实现对新簇的更好概括。我们 提议将MEDL纳入三种最重要的DL模型类型,包括密集的进料。 神经网络(DFNN),卷积神经网络(CNN)和自动编码器。我们的初步结果 在准确性和可解释性方面,证明MEDL比常规DL具有多个优势。 Medl 优于以前的群集数据方法,包括:域对抗模型,元学习和 将群集成员作为输入协变量。我们开发了一个me-dfnn来预测 从表格数据中对阿尔茨海默氏病(AD)的轻度认知障碍,是MRI诊断AD的ME-CNN, 以及一个Me-AutoEncoder来压缩和分类实时单元图像。在这些测试用例中,MEDL模型是 已知混杂和真实特征之间最歧视的;他们能够量化或可视化 在训练过程中,随机效果和表现优于其他模型。这个建议 进一步开发了处理复杂体系结构和分层效应的方法,并通过外部验证, 通过这些目的:1)开发用于分类和回归的ME-DFNN。 2)开发3D ME-CNN和多 模态3D ME-CNN用于医学图像分类。 3)开发卷积和向量me-autoCoders 图像和法律数据。我们描述了对抗分类器的创新纳入以限制基础 学习固定效果的模型,贝叶斯随机效果子网以及应用随机效果的方法 看不见的集群。所有这些解决方案将作为开源软件发布,以改善现有的DL模型 最终支持精确生物医学来研究和治疗人类疾病。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Albert Amos Montillo其他文献

Albert Amos Montillo的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

相似国自然基金

签字注册会计师动态配置问题研究:基于临阵换师视角
  • 批准号:
    72362023
  • 批准年份:
    2023
  • 资助金额:
    28 万元
  • 项目类别:
    地区科学基金项目
全生命周期视域的会计师事务所分所一体化治理与审计风险控制研究
  • 批准号:
    72372064
  • 批准年份:
    2023
  • 资助金额:
    40 万元
  • 项目类别:
    面上项目
会计师事务所数字化能力构建:动机、经济后果及作用机制
  • 批准号:
    72372028
  • 批准年份:
    2023
  • 资助金额:
    42.00 万元
  • 项目类别:
    面上项目
会计师事务所薪酬激励机制:理论框架、激励效应检验与优化重构
  • 批准号:
    72362001
  • 批准年份:
    2023
  • 资助金额:
    28.00 万元
  • 项目类别:
    地区科学基金项目
环境治理目标下的公司财务、会计和审计行为研究
  • 批准号:
    72332002
  • 批准年份:
    2023
  • 资助金额:
    165.00 万元
  • 项目类别:
    重点项目

相似海外基金

Morphologic and Kinematic Adaptations of the Subtalar Joint after Ankle Fusion Surgery in Patients with Varus-type Ankle Osteoarthritis
内翻型踝骨关节炎患者踝关节融合手术后距下关节的形态和运动学适应
  • 批准号:
    10725811
  • 财政年份:
    2023
  • 资助金额:
    $ 34.44万
  • 项目类别:
Delineating the functional impact of recurrent repeat expansions in ALS using integrative multiomic analysis
使用综合多组学分析描述 ALS 中反复重复扩增的功能影响
  • 批准号:
    10776994
  • 财政年份:
    2023
  • 资助金额:
    $ 34.44万
  • 项目类别:
FastPlex: A Fast Deep Learning Segmentation Method for Accurate Choroid Plexus Morphometry
FastPlex:一种用于精确脉络丛形态测量的快速深度学习分割方法
  • 批准号:
    10734956
  • 财政年份:
    2023
  • 资助金额:
    $ 34.44万
  • 项目类别:
Integration of advanced imaging and multiOMICs to elucidate pro-atherogenic effects of endothelial-to-Immune cell-like transition (EndICLT)
整合先进成像和多组学技术来阐明内皮细胞向免疫细胞样转变的促动脉粥样硬化效应 (EndICLT)
  • 批准号:
    10606258
  • 财政年份:
    2023
  • 资助金额:
    $ 34.44万
  • 项目类别:
Core A: Administrative Core
核心A:行政核心
  • 批准号:
    10555893
  • 财政年份:
    2023
  • 资助金额:
    $ 34.44万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了