Personalized Risk Predictions with Deep Learning Methods in the Presence of Missing and Biased Electronic Health Record Data

在存在缺失和有偏差的电子健康记录数据的情况下,利用深度学习方法进行个性化风险预测

基本信息

  • 批准号:
    10463550
  • 负责人:
  • 金额:
    $ 33.21万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
  • 财政年份:
    2021
  • 资助国家:
    美国
  • 起止时间:
    2021-08-06 至 2025-05-31
  • 项目状态:
    未结题

项目摘要

Abstract Since 2010, clinical medicine has benefited from a rapid surge of clinical research on chronic diseases using data from electronic health records (EHRs). EHRs are appealing because they can offer large sample sizes, timely information, and a wealth of clinical information beyond that obtained from either health surveys or administrative data. However, while millions of patient records are included in large EHR records, they are not population-representative random samples, a constraint that potentially biases inferences based on such data and, therefore, has limited their utility for population health research. EHR data typically contain multiple types of biases, particularly: 1) sampling inclusion bias: EHR data only include information on patients visiting participating medical systems, and they primarily capture data when patients are ill. Even among populations with a particular disease, patients represented in EHRs tend to over-represent individuals who are sicker and have higher health care utilization; 2) sampling frequency bias: the numbers of patients’ encounters and features in EHRs are at various frequencies and these frequencies correlate with both patients’ characteristics and outcomes; and 3) institution bias: EHR samples of any hospital reflect the characteristics of patients population served by that specific hospital. Consequently, EHR-based risk prediction models will have 1) biases in risk factor selection and estimation for population inferences; 2) disparate mistreatment (unfairness) in terms of variation in a model’s prediction accuracy across patient subgroups (such as gender, race, and age) with various sampling inclusion probabilities or frequencies; 3) biased prediction model to reflect characteristics of patients served by the local hospitals. We propose to develop: 1) effective sample-weighting method to correct biases in risk factor selection and estimation for population inferences (Aim 1), 2) flexible deep learning method for EHR personalized risk prediction with fairness criteria (Aim 2); and 3) innovative calibration method to improve reproducibility of EHR-based risk models between institutions (Aim 3). We will predict risk of subsequent incident cardiovascular disease (CVD) in patients with type 2 diabetes (T2DM) as a demonstration of methodology development. Broader use of these methods will be generally applicable to other diseases outcomes and population of interest. To develop and validate these methods, we propose to analyze three unique datasets: 1) the New York University Langone Health EHR data (NYU-CDRN, 2009 to now) including demographics, vitals, diagnoses, lab results, prescriptions, and procedures; 2) the New York City Clinical Data Research Network (NYC-CDRN)—an EHR network comprising 20 NYC healthcare institutions, including the NYU-CDRN, with longitudinally linked data on >12 million patient encounters under a Common Data Model, and 3) the Health and Retirement Survey (HRS, begun in 1992 and ongoing), as a benchmark population- based cohort, that has nationally representative health interview data for over 20 years, as well as biomarkers, physical assessment information, prescription drug data, and claims linkages.
抽象的 自2010年以来,临床医学从慢性疾病的临床研究中迅速激增。 来自电子健康记录(EHRS)的数据。 EHR很有吸引力,因为它们可以提供大量样本量, 及时信息以及从健康调查或从中获得的大量临床信息或 管理数据。但是,尽管大EHR记录中包含了数百万个患者记录,但它们不是 人口代表性的随机样本,这种约束可能会根据此类数据偏向推论 因此,对人口健康研究的实用性限制了。 EHR数据通常包含多种类型 偏见,特别是:1)抽样包容偏差:EHR数据仅包括有关访问的患者的信息 参与医疗系统,并在患者生病时捕获数据。甚至在人口中 有了特定的疾病,EHR中代表的患者往往会过分占病人,并且患病的患者 拥有更高的医疗保健利用; 2)抽样频率偏见:患者的遭遇和 EHR中的特征在各种频率下,这些频率与两个患者的特征相关 和结果; 3)机构偏见:任何医院的EHR样本反映了患者的特征 该特定医院服务的人口。因此,基于EHR的风险预测模型将具有1) 危险因素选择的偏见和人口推断的估计; 2)不同的虐待(不公平) 在模型跨患者亚组(例如性别,种族和年龄)的预测准确性方面的变化方面 具有各种抽样的包含可能性或频率; 3)偏见的预测模型以反映特征 当地医院服务的患者。我们建议开发:1)有效的样本加权方法 正确的危险因素选择和人口推断估计的偏见(目标1),2)灵活的深度学习 通过公平标准的EHR个性化风险预测的方法(AIM 2); 3)创新校准方法 为了提高机构之间基于EHR的风险模型的可重复性(AIM 3)。我们将预测 随后的2型糖尿病(T2DM)患者的心血管疾病(CVD)作为示范 方法发展。这些方法的更广泛使用通常适用于其他疾病 结果和感兴趣的人群。为了开发和验证这些方法,我们建议分析三个 唯一数据集:1)纽约大学Langone Health EHR数据(NYU-CDRN,2009年至今) 人口统计学,生命力,诊断,实验室结果,处方和程序; 2)纽约市临床数据 研究网络(NYC-CDRN) - 包括20个NYC医疗机构的EHR网络,包括 NYU-CDRN,在公共数据模型下遇到> 1200万患者的纵向链接数据, 3)健康和退休调查(HRS,始于1992年,正在进行),作为基准人群 - 基于全国代表性的健康访谈数据超过20年以及生物标志物,它 物理评估信息,处方药数据和索赔联系。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Padhraic Smyth其他文献

Padhraic Smyth的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Padhraic Smyth', 18)}}的其他基金

Personalized Risk Predictions with Deep Learning Methods in the Presence of Missing and Biased Electronic Health Record Data
在存在缺失和有偏差的电子健康记录数据的情况下,利用深度学习方法进行个性化风险预测
  • 批准号:
    10646324
  • 财政年份:
    2021
  • 资助金额:
    $ 33.21万
  • 项目类别:

相似国自然基金

分布式非凸非光滑优化问题的凸松弛及高低阶加速算法研究
  • 批准号:
    12371308
  • 批准年份:
    2023
  • 资助金额:
    43.5 万元
  • 项目类别:
    面上项目
资源受限下集成学习算法设计与硬件实现研究
  • 批准号:
    62372198
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目
基于物理信息神经网络的电磁场快速算法研究
  • 批准号:
    52377005
  • 批准年份:
    2023
  • 资助金额:
    52 万元
  • 项目类别:
    面上项目
考虑桩-土-水耦合效应的饱和砂土变形与流动问题的SPH模型与高效算法研究
  • 批准号:
    12302257
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
面向高维不平衡数据的分类集成算法研究
  • 批准号:
    62306119
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

Early Cognitive Impairment as a function of Alzheimer's Disease and Trauma
阿尔茨海默病和创伤导致的早期认知障碍
  • 批准号:
    10479319
  • 财政年份:
    2023
  • 资助金额:
    $ 33.21万
  • 项目类别:
Hybrid Intelligence for Trustable Diagnosis And Patient Management of Prostate Cancer (HIT-PIRADS)
用于前列腺癌可信诊断和患者管理的混合智能 (HIT-PIRADS)
  • 批准号:
    10611212
  • 财政年份:
    2023
  • 资助金额:
    $ 33.21万
  • 项目类别:
Predicting Clinical Phenotypes in Crohn's Disease Using Machine Learning and Single-Cell 'omics
使用机器学习和单细胞组学预测克罗恩病的临床表型
  • 批准号:
    10586795
  • 财政年份:
    2023
  • 资助金额:
    $ 33.21万
  • 项目类别:
Edited Magnetic Resonance Spectroscopy of the Pediatric Brain
儿科大脑磁共振波谱编辑
  • 批准号:
    10583752
  • 财政年份:
    2023
  • 资助金额:
    $ 33.21万
  • 项目类别:
Systematic Assessment of Combinatorial Transcription Factor Activity
组合转录因子活性的系统评估
  • 批准号:
    10897439
  • 财政年份:
    2023
  • 资助金额:
    $ 33.21万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了