Biases introduced by filtering electronic health records for patients with "complete data"
通过过滤具有“完整数据”的患者的电子健康记录而引入的偏差
基本信息
- 批准号:10676899
- 负责人:
- 金额:$ 35.8万
- 依托单位:
- 依托单位国家:美国
- 项目类别:
- 财政年份:2020
- 资助国家:美国
- 起止时间:2020-09-04 至 2024-08-31
- 项目状态:已结题
- 来源:
- 关键词:AddressAdoptedAdoptionAgeCharacteristicsClinical DataClinical TrialsClinical Trials NetworkClinical and Translational Science AwardsComputer softwareCountryDataData SetDatabasesDiagnosisElectronic Health RecordEnrollmentEnsureEquilibriumEventFundingGeographic LocationsGoalsHealthHealth care facilityHealthcareHospitalizationIndividualInstitutionInsurance CarriersIsraelLinkMachine LearningMeasuresMedicalMedical HistoryMedical centerModelingNational Center for Advancing Translational SciencesOntologyPatient SelectionPatientsPerformanceProbabilityProceduresProviderRaceRecording of previous eventsRecordsResearchResearch PersonnelSample SizeSelection BiasSiteStatistical ModelsSystemTestingTrainingUnited States National Institutes of HealthVisitWorkcare seekingclinical databasecohortcostdemographicshospital careimprovedinsurance planmachine learning modelmachine learning predictionopen sourcepatient health informationpatient populationpersonalized medicinepredictive modelingsex
项目摘要
PROJECT SUMMARY
Nationwide adoption of electronic health records (EHRs) has led to the increasing availability of large clinical
datasets. With statistical modeling and machine learning, these datasets have been be used in a wide range of
applications, including diagnosis, decision support, cost reduction, and personalized medicine. However,
because the same patient could be treated at multiple health care institutions, data from only a single EHR might
not contain the complete medical history for that patient, with critical events potentially missing. A common
approach to addressing this problem is to apply data checks that filter the EHR for patients whose data appear
to be more “complete”. Examples of filters include requiring at least one visit per year or ensuring that age, sex,
and race are all recorded. However, in a previous study using EHR data from seven institutions, we showed that
these filters can greatly reduce the sample size and introduce unexpected biases by selecting sicker patients
who seek care more often and changing the demographics of the resulting cohorts. This project extends this
prior research by implementing an expanded set of data completeness filters and testing their accuracy and
potential biases using a combination of national claims data and EHR data from dozens of hospitals and
healthcare centers across the country. This will enable us to understand how data completeness varies in
different EHRs and quantify the tradeoffs of different approaches to correcting for gaps in patients' records. First,
we will develop and measure the accuracy of data completeness filters using national claims data. This provides
a “gold standard” of longitudinal data where patients' complete medical histories are known during the periods
in which they were enrolled in the insurance plan. After partitioning the data by provider groups to model gaps
in EHR data, we will test how well data completeness filters, individually and in combined machine learning
models, select patients with fewer gaps. We will then test whether the filters introduce biases by selecting sicker
patients (more diagnoses, more visits, etc.) or changing their demographic characteristics (age, sex, and zip
code). Then, we will test the filters on EHR data, first at a single large medical center, and then across a national
network of 57 institutions, representing different geographic regions, patient populations, number of years of
data, and types of health care facilities. We will evaluate the filters by measuring whether they improve the
performance of a machine learning model for predicting hospital admissions. Our ultimate goals are to (a) help
researchers balance the need for complete data with the biases this might introduce to their models and (b) help
them predict how well models trained on one EHR dataset might work on other EHRs with different data
completeness profiles.
项目概要
电子健康记录 (EHR) 在全国范围内的采用导致大型临床记录的可用性不断增加
通过统计建模和机器学习,这些数据集已被广泛使用。
应用,包括诊断、决策支持、降低成本和个性化医疗。
由于同一患者可能在多个医疗机构接受治疗,因此仅来自一个 EHR 的数据可能
不包含该患者的完整病史,可能会丢失重要事件。
解决这个问题的方法是应用数据检查来过滤 EHR 中出现数据的患者
更“完整”的过滤器示例包括要求每年至少一次访问或确保年龄、性别、
和种族都被记录下来。然而,在之前使用七个机构的 EHR 数据的研究中,我们表明:
这些过滤器可以大大减少样本量,并通过选择病情较重的患者来引入意想不到的偏差
更频繁地寻求护理并改变由此产生的人群的人口统计数据。该项目扩展了这一点。
先前的研究通过实施一组扩展的数据完整性过滤器并测试其准确性和
结合国家索赔数据和数十家医院的 EHR 数据可能存在偏差
这将使我们能够了解数据完整性的差异。
不同的电子病历并量化纠正患者记录差异的不同方法的权衡。
我们将使用国家索赔数据开发和衡量数据完整性过滤器的准确性。
纵向数据的“黄金标准”,其中患者在此期间的完整病史是已知的
他们加入了保险计划后,按提供者群体对数据进行分区以建立差距模型。
在 EHR 数据中,我们将测试单独和组合机器学习中数据完整性过滤的效果
模型,选择差距较小的患者,然后我们将测试过滤器是否通过选择病情较重的患者而引入偏差。
患者(更多的诊断、更多的就诊等)或改变他们的人口特征(年龄、性别和邮政编码)
然后,我们将首先在一个大型医疗中心,然后在全国范围内测试 EHR 数据的过滤器。
由 57 个机构组成的网络,代表不同的地理区域、患者群体、治疗年限
我们将通过衡量过滤器是否改善了健康状况来评估过滤器。
用于预测入院情况的机器学习模型的性能我们的最终目标是 (a) 提供帮助。
研究人员平衡了对完整数据的需求与这可能会给他们的模型带来的偏差,并且(b)帮助
他们预测在一个 EHR 数据集上训练的模型在具有不同数据的其他 EHR 上的工作效果如何
完整性概况。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Griffin M Weber其他文献
Griffin M Weber的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Griffin M Weber', 18)}}的其他基金
Biases introduced by filtering electronic health records for patients with "complete data"
通过过滤具有“完整数据”的患者的电子健康记录而引入的偏差
- 批准号:
10475168 - 财政年份:2020
- 资助金额:
$ 35.8万 - 项目类别:
Biases introduced by filtering electronic health records for patients with "complete data"
通过过滤具有“完整数据”的患者的电子健康记录而引入的偏差
- 批准号:
10254420 - 财政年份:2020
- 资助金额:
$ 35.8万 - 项目类别:
Biases introduced by filtering electronic health records for patients with "complete data"
通过过滤具有“完整数据”的患者的电子健康记录而引入的偏差
- 批准号:
10121437 - 财政年份:2020
- 资助金额:
$ 35.8万 - 项目类别:
Modeling scientific workforce dynamics using social network analysis
使用社交网络分析对科学劳动力动态进行建模
- 批准号:
8994292 - 财政年份:2015
- 资助金额:
$ 35.8万 - 项目类别:
Modeling scientific workforce dynamics using social network analysis
使用社交网络分析对科学劳动力动态进行建模
- 批准号:
9198989 - 财政年份:2015
- 资助金额:
$ 35.8万 - 项目类别:
Modeling scientific workforce dynamics using social network analysis
使用社交网络分析对科学劳动力动态进行建模
- 批准号:
8798219 - 财政年份:2015
- 资助金额:
$ 35.8万 - 项目类别:
Visualizing healthcare system dynamics in biomedical Big Data
在生物医学大数据中可视化医疗保健系统动态
- 批准号:
8875287 - 财政年份:2015
- 资助金额:
$ 35.8万 - 项目类别:
相似国自然基金
锶银离子缓释钛表面通过线粒体自噬调控NLRP3炎症小体活化水平促进骨整合的机制研究
- 批准号:82301139
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
万寿菊黄酮通过MAPK/Nrf2-ARE通路缓解肉鸡肠道氧化应激损伤的作用机制
- 批准号:32302787
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
肠道菌群及其代谢产物通过mRNA m6A修饰调控猪肉品质的机制研究
- 批准号:32330098
- 批准年份:2023
- 资助金额:220 万元
- 项目类别:重点项目
PUFAs通过SREBPs提高凡纳滨对虾低盐适应能力的机制研究
- 批准号:32303021
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
EGLN3羟化酶通过调控巨噬细胞重编程促进肺癌细胞EMT及转移的机制研究
- 批准号:82373030
- 批准年份:2023
- 资助金额:49 万元
- 项目类别:面上项目
相似海外基金
Implementation of Innovative Treatment for Moral Injury Syndrome: A Hybrid Type 2 Study
道德伤害综合症创新治疗的实施:2 型混合研究
- 批准号:
10752930 - 财政年份:2024
- 资助金额:
$ 35.8万 - 项目类别:
Optimization of electromechanical monitoring of engineered heart tissues
工程心脏组织机电监测的优化
- 批准号:
10673513 - 财政年份:2023
- 资助金额:
$ 35.8万 - 项目类别:
The University of Miami AIDS Research Center on Mental Health and HIV/AIDS - Center for HIV & Research in Mental Health (CHARM)Research Core - EIS
迈阿密大学艾滋病心理健康和艾滋病毒/艾滋病研究中心 - Center for HIV
- 批准号:
10686546 - 财政年份:2023
- 资助金额:
$ 35.8万 - 项目类别:
The RaDIANT Health Systems Intervention for Equity in Kidney Transplantation
Radiant 卫生系统干预肾移植的公平性
- 批准号:
10681998 - 财政年份:2023
- 资助金额:
$ 35.8万 - 项目类别:
Extensible Open Source Zero-Footprint Web Viewer for Cancer Imaging Research
用于癌症成像研究的可扩展开源零足迹 Web 查看器
- 批准号:
10644112 - 财政年份:2023
- 资助金额:
$ 35.8万 - 项目类别: