Biases introduced by filtering electronic health records for patients with "complete data"

通过过滤具有“完整数据”的患者的电子健康记录而引入的偏差

基本信息

  • 批准号:
    10254420
  • 负责人:
  • 金额:
    $ 35.69万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
  • 财政年份:
    2020
  • 资助国家:
    美国
  • 起止时间:
    2020-09-04 至 2024-08-31
  • 项目状态:
    已结题

项目摘要

PROJECT SUMMARY Nationwide adoption of electronic health records (EHRs) has led to the increasing availability of large clinical datasets. With statistical modeling and machine learning, these datasets have been be used in a wide range of applications, including diagnosis, decision support, cost reduction, and personalized medicine. However, because the same patient could be treated at multiple health care institutions, data from only a single EHR might not contain the complete medical history for that patient, with critical events potentially missing. A common approach to addressing this problem is to apply data checks that filter the EHR for patients whose data appear to be more “complete”. Examples of filters include requiring at least one visit per year or ensuring that age, sex, and race are all recorded. However, in a previous study using EHR data from seven institutions, we showed that these filters can greatly reduce the sample size and introduce unexpected biases by selecting sicker patients who seek care more often and changing the demographics of the resulting cohorts. This project extends this prior research by implementing an expanded set of data completeness filters and testing their accuracy and potential biases using a combination of national claims data and EHR data from dozens of hospitals and healthcare centers across the country. This will enable us to understand how data completeness varies in different EHRs and quantify the tradeoffs of different approaches to correcting for gaps in patients' records. First, we will develop and measure the accuracy of data completeness filters using national claims data. This provides a “gold standard” of longitudinal data where patients' complete medical histories are known during the periods in which they were enrolled in the insurance plan. After partitioning the data by provider groups to model gaps in EHR data, we will test how well data completeness filters, individually and in combined machine learning models, select patients with fewer gaps. We will then test whether the filters introduce biases by selecting sicker patients (more diagnoses, more visits, etc.) or changing their demographic characteristics (age, sex, and zip code). Then, we will test the filters on EHR data, first at a single large medical center, and then across a national network of 57 institutions, representing different geographic regions, patient populations, number of years of data, and types of health care facilities. We will evaluate the filters by measuring whether they improve the performance of a machine learning model for predicting hospital admissions. Our ultimate goals are to (a) help researchers balance the need for complete data with the biases this might introduce to their models and (b) help them predict how well models trained on one EHR dataset might work on other EHRs with different data completeness profiles.
项目摘要 在全国范围内采用电子健康记录(EHRS)已导致大型临床的供应量增加 数据集。借助统计建模和机器学习,这些数据集已在各种范围内使用 应用,包括诊断,决策支持,降低成本和个性化医学。然而, 因为可以在多个医疗机构接受同一患者接受治疗,所以只有一个EHR的数据可能 不包含该患者的完整病史,可能缺少重大事件。常见 解决此问题的方法是应用数据检查,以过滤EHR的数据出现的患者 更“完整”。过滤器的示例包括每年至少需要一次访问或确保年龄,性别, 和种族都记录下来。但是,在先前使用来自七个机构的EHR数据的研究中,我们表明 这些过滤器可以大大减少样本量,并通过选择患病患者来引入意外偏见 谁寻求更频繁的关心并改变由此产生的人群的人口统计。这个项目扩展了这一点 通过实施扩展的数据完整性过滤器并测试其准确性和 使用国家索赔数据和EHR数据组合的潜在偏见 全国医疗保健中心。这将使我们能够了解数据完整性如何变化 不同的EHR并量化了不同方法的权衡,以纠正患者记录中的差距。第一的, 我们将使用国家索赔数据来开发和衡量数据完整性过滤器的准确性。这提供了 纵向数据的“黄金标准”,在此期间已知患者的完整病史 他们参加了保险计划。在对提供商组进行分区以建模差距之后 在EHR数据中,我们将测试数据完整性过滤器的单独和组合机器学习 模型,选择差距较少的患者。然后,我们将通过选择病人来测试过滤器是否引入偏见 患者(更多诊断,更多的访问等)或改变其人口特征(年龄,性别和拉链 代码)。然后,我们将在EHR数据上测试过滤器,首先在一个大型医疗中心,然后在一个国家 57个机构的网络,代表不同的地理区域,患者人口,年限 数据和医疗机构的类型。我们将通过测量它们是否改善过滤器来评估过滤器 用于预测住院的机器学习模型的性能。我们的最终目标是(a)帮助 研究人员平衡了对完整数据的需求与这可能引入其模型的偏见和(b)帮助 他们预测在一个EHR数据集上训练的模型如何在其他EHR上使用不同的数据 完整概况。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Griffin M Weber其他文献

Griffin M Weber的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Griffin M Weber', 18)}}的其他基金

Biases introduced by filtering electronic health records for patients with "complete data"
通过过滤具有“完整数据”的患者的电子健康记录而引入的偏差
  • 批准号:
    10475168
  • 财政年份:
    2020
  • 资助金额:
    $ 35.69万
  • 项目类别:
Biases introduced by filtering electronic health records for patients with "complete data"
通过过滤具有“完整数据”的患者的电子健康记录而引入的偏差
  • 批准号:
    10676899
  • 财政年份:
    2020
  • 资助金额:
    $ 35.69万
  • 项目类别:
Biases introduced by filtering electronic health records for patients with "complete data"
通过过滤具有“完整数据”的患者的电子健康记录而引入的偏差
  • 批准号:
    10121437
  • 财政年份:
    2020
  • 资助金额:
    $ 35.69万
  • 项目类别:
Modeling scientific workforce dynamics using social network analysis
使用社交网络分析对科学劳动力动态进行建模
  • 批准号:
    8994292
  • 财政年份:
    2015
  • 资助金额:
    $ 35.69万
  • 项目类别:
Modeling scientific workforce dynamics using social network analysis
使用社交网络分析对科学劳动力动态进行建模
  • 批准号:
    9198989
  • 财政年份:
    2015
  • 资助金额:
    $ 35.69万
  • 项目类别:
Modeling scientific workforce dynamics using social network analysis
使用社交网络分析对科学劳动力动态进行建模
  • 批准号:
    8798219
  • 财政年份:
    2015
  • 资助金额:
    $ 35.69万
  • 项目类别:
Visualizing healthcare system dynamics in biomedical Big Data
在生物医学大数据中可视化医疗保健系统动态
  • 批准号:
    8875287
  • 财政年份:
    2015
  • 资助金额:
    $ 35.69万
  • 项目类别:

相似国自然基金

采用新型视觉-电刺激配对范式长期、特异性改变成年期动物视觉系统功能可塑性
  • 批准号:
    32371047
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目
采用多种稀疏自注意力机制的Transformer隧道衬砌裂缝检测方法研究
  • 批准号:
    62301339
  • 批准年份:
    2023
  • 资助金额:
    30.00 万元
  • 项目类别:
    青年科学基金项目
破解老年人数字鸿沟:老年人采用数字技术的决策过程、客观障碍和应对策略
  • 批准号:
    72303205
  • 批准年份:
    2023
  • 资助金额:
    30.00 万元
  • 项目类别:
    青年科学基金项目
通过抑制流体运动和采用双能谱方法来改进烧蚀速率测量的研究
  • 批准号:
    12305261
  • 批准年份:
    2023
  • 资助金额:
    30.00 万元
  • 项目类别:
    青年科学基金项目
政策激励、信息传递与农户屋顶光伏技术采用提升机制研究
  • 批准号:
    72304103
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

How novices write code: discovering best practices and how they can be adopted
新手如何编写代码:发现最佳实践以及如何采用它们
  • 批准号:
    2315783
  • 财政年份:
    2023
  • 资助金额:
    $ 35.69万
  • 项目类别:
    Standard Grant
One or Several Mothers: The Adopted Child as Critical and Clinical Subject
一位或多位母亲:收养的孩子作为关键和临床对象
  • 批准号:
    2719534
  • 财政年份:
    2022
  • 资助金额:
    $ 35.69万
  • 项目类别:
    Studentship
A material investigation of the ceramic shards excavated from the Omuro Ninsei kiln site: Production techniques adopted by Nonomura Ninsei.
对大室仁清窑遗址出土的陶瓷碎片进行材质调查:野野村仁清采用的生产技术。
  • 批准号:
    20K01113
  • 财政年份:
    2020
  • 资助金额:
    $ 35.69万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
A comparative study of disabled children and their adopted maternal figures in French and English Romantic Literature
英法浪漫主义文学中残疾儿童及其收养母亲形象的比较研究
  • 批准号:
    2633211
  • 财政年份:
    2020
  • 资助金额:
    $ 35.69万
  • 项目类别:
    Studentship
A comparative study of disabled children and their adopted maternal figures in French and English Romantic Literature
英法浪漫主义文学中残疾儿童及其收养母亲形象的比较研究
  • 批准号:
    2436895
  • 财政年份:
    2020
  • 资助金额:
    $ 35.69万
  • 项目类别:
    Studentship
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了