Semi-structured Information Retrieval in Clinical Text for Cohort Identification

用于队列识别的临床文本中的半结构化信息检索

基本信息

  • 批准号:
    8928647
  • 负责人:
  • 金额:
    $ 37.63万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
  • 财政年份:
    2014
  • 资助国家:
    美国
  • 起止时间:
    2014-09-20 至 2019-07-31
  • 项目状态:
    已结题

项目摘要

DESCRIPTION (provided by applicant): Natural Language Processing (NLP) techniques have shown promise for extracting data from the free text of electronic health records (EHRs), but studies have consistently found that techniques do not readily generalize across application settings. Unfortunately, most of the focus in applying NLP to real use cases has remained on a paradigm of single, well-defined application settings, so that generalizability to unseen use cases remains implicitly unaddressed. We propose to explicitly account for unseen application settings by adopting an information retrieval (IR) perspective with the objective of patient-level cohort identification. To do so, we introduce layered language models, an IR framework that enables the reuse of NLP-produced artifacts. Our long term goal is to accelerate investigations of patient health and disease by providing robust, user- centric tools that are necessary to process, retrieve, and utilize the free text of EHRs. The main goal of this proposal is to accurately retrieve ad hoc, realistic cohorts from clinical text at Mayo Clinic and OHSU, establishing methods, resources, and evaluation for patient-level IR. We hypothesize that cohort identification can be addressed in a generalizable fashion by a new IR framework: layered language models. We will test this hypothesis through four specific aims. In Aim 1, we will make medical NLP artifacts searchable in our layered language IR framework. This involves storing and indexing the NLP artifacts, as well as using statistical language models to retrieve documents based on text and its associated NLP artifacts. In Aim 2, we deal with the practical setting of ad hoc cohort identification, moving to patient-level (rather than document-level) IR. To accurately handle patient cohorts in which qualifying evidence may be spread over multiple documents, we will develop and implement patient-level retrieval models that account for cross- document relational and temporal combinations of events. In Aim 3, we will construct parallel IR test collections using EHR data from two sites; a diverse set of cohort queries written by multiple people toward various clinical or epidemiological ends; and assessments of which patients are relevant to which queries at both sites. Finally, in Aim 4, we refine and evaluate patient-level layered language IR on the ad hoc cohort identification task, making comparisons across the users, queries, optimization metrics, and institutions. We will draw additional extrinsic comparisons with pre-existing techniques, e.g., for cohorts from the Electronic Medical Records and Genonmics network. The expected outcomes of the proposed work are: (i) An open-source cohort identification tool, usable by clinicians and epidemiologists, that makes principled use of NLP artifacts for unseen queries; ii) A parallel test collection for cohort identification, includig two intra-institutional document collections, diverse test topics and user-produced text queries, and patient-level judgments of relevance to each query; and (iii) Validation of the reusability of medical NLP via the task of retrieving patient cohorts.
描述(由申请人提供):自然语言处理(NLP)技术已经显示出从电子健康记录(EHR)自由文本中提取数据的希望,但是研究一直发现,技术并不能跨应用程序设置概述。不幸的是,将NLP应用于真实用例的大多数重点仍然存在于单个,定义明确的应用程序设置的范式上,因此,未见用例的概括性仍然隐含地未受解答。我们建议通过采用信息检索(IR)观点来明确说明未见的申请设置,以患者级同类识别的目的。为此,我们介绍了分层语言模型,这是一个IR框架,可重用NLP生产的工件。我们的长期目标是通过提供可加工,以用户为中心的工具来加快对患者健康和疾病的调查,这些工具是处理,检索和利用EHR的自由文本所必需的。该提案的主要目的是准确地从Mayo Clinic和OHSU的临床文本中准确检索临时人群,建立患者级IR的方法,资源和评估。我们假设可以通过新的IR框架:分层语言模型以可推广的方式来解决队列识别。我们将通过四个特定目标检验这一假设。在AIM 1中,我们将在我们的分层IR框架中使医疗NLP工件可以搜索。这涉及存储和索引NLP工件,以及使用统计语言模型根据文本及其相关的NLP工件检索文档。在AIM 2中,我们处理了临时组合识别的实际设置,转向患者级(而不是文档级)IR。为了准确处理可能分配到多个文档的合格证据的患者同类,我们将开发和实施患者级检索模型,以解释事件的跨文档关系和时间组合。在AIM 3中,我们将使用来自两个站点的EHR数据构建并行的IR测试收集。由多个撰写的一组各种队列查询 人们走向各种临床或流行病学末端;以及评估哪些患者与两个部位的疑问有关。最后,在AIM 4中,我们在临时同步识别任务上完善和评估患者级分层语言IR,从而对用户,查询,优化指标和机构进行比较。我们将与先前存在的技术进行其他外部比较,例如电子病历和GenOnmics网络的同伙。拟议作品的预期结果是:(i)一种开源队列识别工具,可供临床医生和流行病学家使用,该工具可将NLP工件原则地用于看不见的查询; ii)用于队列识别的并行测试收集,包括两个机构内的文件集合,不同的测试主题和用户生产的文本查询以及与每个查询相关的患者级别的判断; (iii)通过检索患者队列的任务来验证医疗NLP的可重复性。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

HONGFANG LIU其他文献

HONGFANG LIU的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('HONGFANG LIU', 18)}}的其他基金

Learning Precision Medicine for Rare Diseases Empowered by Knowledge-driven Data Mining
通过知识驱动的数据挖掘学习罕见疾病的精准医学
  • 批准号:
    10732934
  • 财政年份:
    2023
  • 资助金额:
    $ 37.63万
  • 项目类别:
The Data, Evaluation, and Coordination Center (DECC) for Connecting Underrepresented Populations to Clinical Trials (CUSP2CT)
用于将代表性不足的人群与临床试验联系起来的数据、评估和协调中心 (DECC) (CUSP2CT)
  • 批准号:
    10597291
  • 财政年份:
    2022
  • 资助金额:
    $ 37.63万
  • 项目类别:
Secondary use of EMRs for surgical complication surveillance
EMR 二次用于手术并发症监测
  • 批准号:
    10202598
  • 财政年份:
    2015
  • 资助金额:
    $ 37.63万
  • 项目类别:
Secondary use of EMRs for surgical complication surveillance
EMR 二次用于手术并发症监测
  • 批准号:
    10001498
  • 财政年份:
    2015
  • 资助金额:
    $ 37.63万
  • 项目类别:
Secondary use of EMRs for surgical complication surveillance
二次使用 EMR 进行手术并发症监测
  • 批准号:
    9251814
  • 财政年份:
    2015
  • 资助金额:
    $ 37.63万
  • 项目类别:
Secondary use of EMRs for surgical complication surveillance
EMR 二次用于手术并发症监测
  • 批准号:
    10471838
  • 财政年份:
    2015
  • 资助金额:
    $ 37.63万
  • 项目类别:
Semi-structured Information Retrieval in Clinical Text for Cohort Identification
用于队列识别的临床文本中的半结构化信息检索
  • 批准号:
    8811565
  • 财政年份:
    2014
  • 资助金额:
    $ 37.63万
  • 项目类别:
Natural language processing for clinical and translational research
用于临床和转化研究的自然语言处理
  • 批准号:
    9033918
  • 财政年份:
    2013
  • 资助金额:
    $ 37.63万
  • 项目类别:
Natural language processing for clinical and translational research
用于临床和转化研究的自然语言处理
  • 批准号:
    8640959
  • 财政年份:
    2013
  • 资助金额:
    $ 37.63万
  • 项目类别:
Natural language processing for clinical and translational research
用于临床和转化研究的自然语言处理
  • 批准号:
    8920720
  • 财政年份:
    2013
  • 资助金额:
    $ 37.63万
  • 项目类别:

相似国自然基金

时空序列驱动的神经形态视觉目标识别算法研究
  • 批准号:
    61906126
  • 批准年份:
    2019
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
本体驱动的地址数据空间语义建模与地址匹配方法
  • 批准号:
    41901325
  • 批准年份:
    2019
  • 资助金额:
    22.0 万元
  • 项目类别:
    青年科学基金项目
大容量固态硬盘地址映射表优化设计与访存优化研究
  • 批准号:
    61802133
  • 批准年份:
    2018
  • 资助金额:
    23.0 万元
  • 项目类别:
    青年科学基金项目
IP地址驱动的多径路由及流量传输控制研究
  • 批准号:
    61872252
  • 批准年份:
    2018
  • 资助金额:
    64.0 万元
  • 项目类别:
    面上项目
针对内存攻击对象的内存安全防御技术研究
  • 批准号:
    61802432
  • 批准年份:
    2018
  • 资助金额:
    25.0 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

Cafe Move: A Novel Program for Prevention of Age-Related Physical Frailty
Cafe Move:预防与年龄相关的身体虚弱的新计划
  • 批准号:
    10861960
  • 财政年份:
    2023
  • 资助金额:
    $ 37.63万
  • 项目类别:
Morphologic and Kinematic Adaptations of the Subtalar Joint after Ankle Fusion Surgery in Patients with Varus-type Ankle Osteoarthritis
内翻型踝骨关节炎患者踝关节融合手术后距下关节的形态和运动学适应
  • 批准号:
    10725811
  • 财政年份:
    2023
  • 资助金额:
    $ 37.63万
  • 项目类别:
Informing alcohol policy: The impact of evidence-based alcohol warnings on consumption
告知酒精政策:基于证据的酒精警告对消费的影响
  • 批准号:
    10565120
  • 财政年份:
    2023
  • 资助金额:
    $ 37.63万
  • 项目类别:
Developing a regionally representative risk assessment tool to identify men at highest risk of HIV acquisition in sub-Saharan Africa
开发具有区域代表性的风险评估工具,以确定撒哈拉以南非洲地区感染艾滋病毒风险最高的男性
  • 批准号:
    10762645
  • 财政年份:
    2023
  • 资助金额:
    $ 37.63万
  • 项目类别:
Structural and functional studies of YbtPQ for fighting bacterial infections
YbtPQ 对抗细菌感染的结构和功能研究
  • 批准号:
    10644889
  • 财政年份:
    2023
  • 资助金额:
    $ 37.63万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了