Rule-based machine learning to address heterogeneity in high-dimensional survival data

基于规则的机器学习解决高维生存数据的异质性

基本信息

  • 批准号:
    10478828
  • 负责人:
  • 金额:
    $ 2.51万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
  • 财政年份:
    2021
  • 资助国家:
    美国
  • 起止时间:
    2021-09-01 至 2022-12-05
  • 项目状态:
    已结题

项目摘要

Project Summary In the post-genomic era, researchers are met with an abundance of data to analyze and interpret. Genome- wide association analyses (GWAS) often boast millions of single-nucleotide polymorphisms (SNPs), alongside increasingly large epigenomic, transcriptomic, proteomic (multi-omic) and other data sets. While the current standard in genetic epidemiology emphasizes increased sample sizes, we propose that substantial progress can be made by developing improved methods to analyze the vast amount of multi-omic data that currently exists. A number of methodological challenges including dimensionality and the multiple testing burden have limited the success of many approaches thus far. Furthermore, only considering simple, linear associations leaves out the more likely scenario of complex genetic and multi-omic relationships driving risk and outcomes in common diseases. Heterogeneity is just one of the complex mechanisms that underlies disease risk and outcomes, but is arguably among the most difficult to model and detect. This project tackles this and other challenges in glioma, a highly heterogeneous cancer type. Improving upon available treatment strategies in cancer and glioma specifically will undoubtedly require a full characterization of genetic heterogeneity and epigenetic mechanisms. In addition to confronting the dimensionality of genetic and epigenetic data using a feature selection strategy that can detect both main effects and interaction and preserve heterogeneity, we will modify an existing method for detecting heterogeneity to accommodate censored survival data. First, in Aim 1, we will use simulated genetic survival data to establish the utility of a Relief-based feature selection algorithm in capturing complex genetic architectures (i.e., main effects, heterogeneity, and epistasis). We will compare it against standard approaches for high-dimensional feature selection of survival data. Aim 2 updates a learning classifier system (LCS), a type of rule-based machine learning that uses IF/THEN rules to model complex and heterogeneous problem spaces. To our knowledge, no LCS that handles censored survival data has been developed to date. After testing our survival LCS on simulated data and comparing it to standard survival methods, in Aim 3 we will implement it using somatic mutation and methylation data from the TCGA glioma dataset. Finally, as part of Aim 3, we will perform a pathway analysis using the LCS output in an effort to identify common biological pathways underlying heterogeneous associations. We will also utilize a network visualization tool to better understand interactions between features and provide a visual interpretation of the results. Findings from this project will lay the foundation for precision care and treatment of glioma. Our innovative approach to high-dimensional, heterogeneous survival data will be both generalizable and interpretable, qualities that are missing from current machine learning approaches. This project and the accompanying training plan undeniably provide an ideal setting to develop the skills and experience necessary to become and independent investigator at the forefront of genetic epidemiology and informatics.
项目摘要 在基因组后时代,研究人员得到了大量的数据来分析和解释。基因组 广泛的关联分析(GWAS)经常拥有数百万个单核苷酸多态性(SNP) 越来越大的表观基因组,转录组,蛋白质组学(多词)和其他数据集。而电流 遗传流行病学的标准强调了增加样本量,我们提出了很大的进步 可以通过开发改进的方法来分析目前的大量多摩变数据 存在。许多方法上的挑战包括维度和多重测试负担 限制迄今为止许多方法的成功。此外,仅考虑简单的线性关联 省略了复杂的遗传和多摩尼克关系的更有可能的情况,驱动风险和结果 常见疾病。异质性只是疾病风险和 结果,但可以说是最难建模和检测的结果之一。该项目解决了这个问题和其他 神经胶质瘤的挑战,一种高度异质的癌症类型。改善可用的治疗策略 癌症和神经胶质瘤无疑将需要完全表征遗传异质性和 表观遗传机制。除了面对遗传和表观遗传数据的维度 可以检测主要效果和互动并保留异质性的特征选择策略,我们将 修改一种检测异质性以容纳审查生存数据的方法。首先,在AIM 1中, 我们将使用模拟的遗传生存数据来确定基于浮雕特征选择算法的实用性 在捕获复杂的遗传体系结构(即主要影响,异质性和上毒)时。我们将比较它 针对高维特征选择生存数据的标准方法。 AIM 2更新学习 分类器系统(LCS),一种基于规则的机器学习,使用/然后使用规则来建模复杂和 异构问题空间。据我们所知,尚无处理审查生存数据的LCS 迄今为止开发。测试我们的生存LC在模拟数据上并将其与标准生存进行了比较 方法,在AIM 3中,我们将使用TCGA神经胶质瘤的体突变和甲基化数据实施它 数据集。最后,作为AIM 3的一部分,我们将使用LCS输出进行途径分析,以努力 确定基础的共同生物学途径。我们还将利用网络 可视化工具,以更好地了解特征之间的相互作用并提供对该功能的视觉解释 结果。该项目的发现将为神经胶质瘤的精确护理和治疗奠定基础。我们的 高维,异质生存数据的创新方法既可以推广,又将是 当前机器学习方法中缺少的质量可解释。这个项目和 不可否认地伴随培训计划提供了理想的环境,以发展必要的技能和经验 成为遗传流行病学和信息学的最前沿的独立研究者。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Alexa Abigail Woodward其他文献

Alexa Abigail Woodward的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

相似国自然基金

成人型弥漫性胶质瘤患者语言功能可塑性研究
  • 批准号:
    82303926
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
MRI融合多组学特征量化高级别成人型弥漫性脑胶质瘤免疫微环境并预测术后复发风险的研究
  • 批准号:
    82302160
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
SMC4/FoxO3a介导的CD38+HLA-DR+CD8+T细胞增殖在成人斯蒂尔病MAS发病中的作用研究
  • 批准号:
    82302025
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
融合多源异构数据应用深度学习预测成人肺部感染病原体研究
  • 批准号:
    82302311
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

The neural underpinnings of speech and nonspeech auditory processing in autism: Implications for language
自闭症患者言语和非言语听觉处理的神经基础:对语言的影响
  • 批准号:
    10827051
  • 财政年份:
    2024
  • 资助金额:
    $ 2.51万
  • 项目类别:
Computational and neural signatures of interoceptive learning in anorexia nervosa
神经性厌食症内感受学习的计算和神经特征
  • 批准号:
    10824044
  • 财政年份:
    2024
  • 资助金额:
    $ 2.51万
  • 项目类别:
The Proactive and Reactive Neuromechanics of Instability in Aging and Dementia with Lewy Bodies
衰老和路易体痴呆中不稳定的主动和反应神经力学
  • 批准号:
    10749539
  • 财政年份:
    2024
  • 资助金额:
    $ 2.51万
  • 项目类别:
Developing Real-world Understanding of Medical Music therapy using the Electronic Health Record (DRUMMER)
使用电子健康记录 (DRUMMER) 培养对医学音乐治疗的真实理解
  • 批准号:
    10748859
  • 财政年份:
    2024
  • 资助金额:
    $ 2.51万
  • 项目类别:
Core B: B-HEARD Core
核心 B:B-HEARD 核心
  • 批准号:
    10555691
  • 财政年份:
    2023
  • 资助金额:
    $ 2.51万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了