Integrative data science approaches for rare disease discovery in health records

用于发现健康记录中罕见疾病的综合数据科学方法

基本信息

  • 批准号:
    9884791
  • 负责人:
  • 金额:
    $ 9.21万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
  • 财政年份:
    2019
  • 资助国家:
    美国
  • 起止时间:
    2019-03-04 至 2022-02-28
  • 项目状态:
    已结题

项目摘要

ABSTRACT: There are nearly 7,000 diseases that have a prevalence of only one in 2,000 individuals or less. Yet, such rare diseases are estimated to collectively affect over 300 million people worldwide, representing a significant healthcare concern. Although rare diseases have predominantly genetic origins, nearly half of them do not manifest symptoms until adulthood and frequently confound discovery and diagnosis. Even in the case of early onset disorders, the sheer number of possible diagnoses can often overwhelm clinicians. As a result, rare diseases are often diagnosed with delay, misdiagnosed or even remain undiagnosed, not only disrupting patient lives but also hindering progress on our understanding of such diseases. Data science methods that mine large-scale retrospective health record data for phenotypic information will aid in timely and accurate diagnoses of rare diseases, especially when combined with additional data types, thus, having significant real- world impact. This proposal will integrate electronic health record (EHR) data sets with publicly available vocabularies and ontologies, and genomic data for the improved identification and characterization of patients with rare diseases, using approaches from machine learning, natural language processing (NLP) and basic bioinformatics. The work has three specific aims and will be carried out in two phases. During the mentored phase, the principal investigator (PI) will develop data-driven methods to extract standardized concepts related to rare diseases from clinical notes and infer the occurrence of each disease (Aim 1). He will also develop data science approaches to compare and contrast longitudinal patterns associated with patients' journeys through the healthcare system when seeking a diagnosis for a rare disease, and aid in clinical decision-making by leveraging these patterns (Aim 2). During the independent phase (Aim 3), computational methods will be developed for the integrated modeling and analysis of genotypic (from Aim 3) and phenotypic information (from Aims 1 and 2). Cohorts to be sequenced will cover diseases for which causal genes or disease definitions are unclear (discovery), as well as those for which these are well known (validation). This work will be carried out under the mentorship of four faculty members with complementary expertise in biomedical informatics, data science, NLP, and rare disease genomics at the University of Washington, the largest medical system in the Pacific Northwest (four million EHRs), world-renowned researchers in medical genetics, and a robust data science environment. In addition, under the direction of the mentoring team, the PI will complete advanced coursework, receive training in translational bioinformatics and clinical research informatics, submit manuscripts, and seek an independent research position. This proposal will yield preliminary results for subsequent studies on data-driven phenotyping and enable the realization of the PI's career goals by providing him with the necessary training to build on his machine learning and basic bioinformatics expertise to transition into an independent investigator in biomedical data science.
摘要:有近 7,000 种疾病的患病率仅为 2,000 人中就有 1 人或更少。 然而,据估计,此类罕见疾病总共影响了全世界 3 亿多人,相当于 重大的医疗保健问题。尽管罕见疾病主要有遗传起源,但其中近一半 直到成年才出现症状,并且经常混淆发现和诊断。即使在这种情况下 对于早发性疾病,可能的诊断数量之多往往会让临床医生不知所措。因此, 罕见病往往诊断延迟、误诊甚至漏诊,不仅扰乱 患者的生命,但也阻碍了我们对此类疾病的理解的进展。数据科学方法 挖掘大规模回顾性健康记录数据以获取表型信息将有助于及时、准确 罕见疾病的诊断,特别是与其他数据类型相结合时,因此具有显着的真实性 世界影响。该提案将把电子健康记录 (EHR) 数据集与公开可用的数据集相集成 词汇表和本体以及基因组数据,用于改进患者的识别和表征 使用机器学习、自然语言处理 (NLP) 和基础方法来治疗罕见疾病 生物信息学。这项工作有三个具体目标,将分两个阶段进行。辅导期间 阶段,首席研究员(PI)将开发数据驱动的方法来提取相关的标准化概念 从临床记录中识别罕见疾病并推断每种疾病的发生(目标 1)。他还将开发数据 科学方法来比较和对比与患者经历的旅程相关的纵向模式 寻求罕见疾病诊断时的医疗保健系统,并通过以下方式协助临床决策 利用这些模式(目标 2)。在独立阶段(目标 3),计算方法将是 开发用于基因型(来自目标 3)和表型信息(来自 目标 1 和 2)。待测序的队列将涵盖其致病基因或疾病定义不明确的疾病 不清楚的(发现),以及那些众所周知的(验证)。这项工作将进行 在四位在生物医学信息学、数据方面具有互补专业知识的教员的指导下 华盛顿大学的科学、NLP 和罕见疾病基因组学是美国最大的医疗系统 太平洋西北地区(400 万份电子病历)、世界知名的医学遗传学研究人员以及可靠的数据 科学环境。此外,在导师团队的指导下,PI将完成高级任务 课程作业,接受转化生物信息学和临床研究信息学培训,提交 手稿,并寻求独立的研究职位。该提案将产生初步结果 数据驱动表型的后续研究,并通过提供以下内容实现 PI 的职业目标 他接受了必要的培训,以利用他的机器学习和基本生物信息学专业知识来进行过渡 成为生物医学数据科学的独立研究者。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Vikas Rao Pejaver其他文献

Vikas Rao Pejaver的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Vikas Rao Pejaver', 18)}}的其他基金

Integrative data science approaches for rare disease discovery in health records
用于发现健康记录中罕见疾病的综合数据科学方法
  • 批准号:
    10541283
  • 财政年份:
    2022
  • 资助金额:
    $ 9.21万
  • 项目类别:
Integrative data science approaches for rare disease discovery in health records
用于发现健康记录中罕见疾病的综合数据科学方法
  • 批准号:
    10626148
  • 财政年份:
    2022
  • 资助金额:
    $ 9.21万
  • 项目类别:

相似国自然基金

社会网络关系对公司现金持有决策影响——基于共御风险的作用机制研究
  • 批准号:
    72302067
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
高尿酸调控TXNIP驱动糖代谢重编程影响巨噬细胞功能
  • 批准号:
    82370895
  • 批准年份:
    2023
  • 资助金额:
    49 万元
  • 项目类别:
    面上项目
倒装芯片超声键合微界面结构演变机理与影响规律
  • 批准号:
    52305599
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
寒地城市学区建成环境对学龄儿童心理健康的影响机制与规划干预路径研究
  • 批准号:
    52378051
  • 批准年份:
    2023
  • 资助金额:
    52 万元
  • 项目类别:
    面上项目
原位研究聚变燃料纯化用Pd-Ag合金中Ag对辐照缺陷演化行为的影响及其相互作用机制
  • 批准号:
    12305308
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

Identifying and testing a tailored strategy to achieve equity in blood pressure control in PACT
确定并测试量身定制的策略,以在 PACT 中实现血压控制的公平性
  • 批准号:
    10538513
  • 财政年份:
    2023
  • 资助金额:
    $ 9.21万
  • 项目类别:
Clonal hematopoiesis and inherited genetic variation in sickle cell disease
镰状细胞病的克隆造血和遗传变异
  • 批准号:
    10638404
  • 财政年份:
    2023
  • 资助金额:
    $ 9.21万
  • 项目类别:
BIN1-interactome in Alzheimer's disease pathophysiology
BIN1-相互作用组在阿尔茨海默病病理生理学中的作用
  • 批准号:
    10677190
  • 财政年份:
    2023
  • 资助金额:
    $ 9.21万
  • 项目类别:
Evaluating the Implementation and De-Implementation of Pandemic Era SNAP Expansion Policies on Diet and Health: A Mixed Methods Project
评估大流行时代 SNAP 饮食和健康扩展政策的实施和取消实施:混合方法项目
  • 批准号:
    10832272
  • 财政年份:
    2023
  • 资助金额:
    $ 9.21万
  • 项目类别:
Urban American Indian/Alaska Native Cultural Eating Values and Behaviors: Community-based, mixed methods research to inform a holistic and culturally-informed diabetes prevention intervention program
城市美洲印第安人/阿拉斯加原住民文化饮食价值观和行为:基于社区的混合方法研究,为全面且文化丰富的糖尿病预防干预计划提供信息
  • 批准号:
    10679529
  • 财政年份:
    2023
  • 资助金额:
    $ 9.21万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了