EVIDARA: Automated Evidential Support from Raw Data for relay agents in Biomedical KG Queries

EVIDARA:生物医学 KG 查询中中继代理的原始数据自动证据支持

基本信息

  • 批准号:
    10706762
  • 负责人:
  • 金额:
    $ 53.29万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
  • 财政年份:
    2020
  • 资助国家:
    美国
  • 起止时间:
    2020-01-24 至 2023-11-30
  • 项目状态:
    已结题

项目摘要

1) Component: Autonomous Relay Agent. We will develop an ARA named EVIDARA to evaluate returns from queries in knowledge sources (KS) using a new epistemology: The “reasoning” is based on checking against empirical evidence available in raw data (measurements) instead of deductive reasoning (FIG.►). EVIDARA will assist the Autonomous Relay System (ARS) to identify paths in returned knowledge graphs (KG) that may conflict with real-word evidence and to relay queries to appropriate specialty KS or database. (2) Problem addressed: EHR and multi-omics raw data from large cohorts, if properly preprocessed [e.g., by Knowledge Providers, such as the DOCKET, see application by Dr. Glusman], offers a new opportunity for ad hoc systematic extraction of empirical knowledge on relationships (“Protein P level correlates with risk for disease D”) instead of relying on specific epidemiological analyses. The problem in harnessing raw data for empirical support in lieu of deductive reasoning is that the KGs to be evaluated are extracted from knowledge sources of distinct types and that the relevance of paths depends on the query context Q. Also the ARA algorithm should be scalable to digest the emerging multi-omics data from projects like All-of-Us, the UK Biobank. (3) Plan for implementation: Research will be conducted to evaluate a new epistemic realm: make empirical evidence central to “reasoning”. We have assembled a set of functioning tools to overcome the chicken-egg problem of getting a project started and jumpstart development and testing of EVIDARA: (i) SPOKE, one of the largest biomedical knowledge network (KN) has integrated 25 diverse of KS into a single (neo4j) network database of 2 million nodes and will serve as testing ground for research well before we can use KGs produced by the Knowledge Providers. (ii) Algorithms that use raw data from EHR and multi-omics studies to evaluate the returned KGs. For instance, we compute weights of all nodes in the entire KN through a random-walk algorithm biased by their role for a given condition Q observed in the raw data. (iii) Raw data beyond EHR: multi-omics profiles from a study at ISB with >10k variables which vastly exceeds coverage of observable nodes in KNs offered by EHRs. Example query: “Vitamin K stimulates stem-cell signaling, thus could promote cancer. What is the molecular pathway? Mechanisms returned as KG will be pruned by EVIDARA and checked against correlative evidence in the raw data: Is there evidence that taking Vit. K or its antagonist reduces cancer risk?”. Importantly, since EVIDARA learns on a network of many types of KS, it will provide information to the ARS about which type of KS/Knowledge Provider to invoke next (in iterative queries) to improve the knowledge graph. (4) Expertise & resources: The MPIs, Drs. S. Baranzini (UCSF) and S. Huang (ISB) are researchers with long history of working with medical big data, thus offering technical expertise and the critical SME perspective. SB’s team has created and maintains SPOKE. The uniquely self-contained SPOKE network will allow NCATS staff to test other ARAs. SH brings decades of experience in research of disease mechanisms and medical epistemology. His team will provide multi-omics datasets and data analytics expertise. With his prior work in the NCATS Translator program, he is well poised to maximize team science efficiency and help convert its vision into tangible results. (5) Potential challenges. (i) Quality of evidential support depends on quality of raw data. A quality control is beyond the scope of EVIDARA but could be provided by Knowledge Providers focusing on new multi-omics data sets (e.g. DOCKET). (ii) Testing EVIDARA on other KS from Knowledge Providers) may be slowed down by interoperability issues (e.g. incompatible identifiers). Such issues will be addressed early in Year 1 with help of the Standard and Reference group.
1) 组件:自主中继代理。 我们将开发一个名为 EVIDARA 的 ARA 评估知识查询的回报 使用新认识论的来源(KS): “推理”是基于对经验的检验 原始数据中可用的证据(测量) 而不是演绎推理 (图►)。EVIDARA 将协助自治。 中继系统 (ARS) 用于识别返回的路径 知识图谱(KG) 与真实证据相冲突,并将查询转发到适当的专业知识库或数据库。 (2) 解决的问题:如果经过适当的预处理,来自大型队列的 EHR 和多组学原始数据 [例如,通过知识提供者,例如 DOCKET,请参阅 Glusman 博士的申请], 为临时系统地提取关系经验知识提供了新的机会 (“蛋白 P 水平与疾病 D 的风险相关”)而不是依赖于特定的流行病学 利用原始数据代替演绎推理进行实证支持的问题。 待评估的 KG 是从不同类型的知识源中提取的,并且 路径的相关性取决于查询上下文 Q。此外,ARA 算法应该是可扩展的 消化来自 All-of-Us、英国生物银行等项目的新兴多组学数据。 (3) 实施计划:将进行研究以评估新的认知领域: 让经验证据成为“推理”的核心。我们已经组装了一套有效的工具来进行推理。 克服启动项目和快速启动开发的先有鸡还是先有蛋的问题 EVIDARA 测试:(i) SPOKE,最大的生物医学知识网络 (KN) 之一已集成 将 25 个不同的 KS 放入一个包含 200 万个节点的单一 (neo4j) 网络数据库中并提供服务 在我们可以使用知识提供者生成的知识图谱之前,先将其作为研究的试验场。 (ii) 使用 EHR 和多组学研究的原始数据来评估返回的 KG 的算法。 例如,我们通过随机游走算法计算整个KN中所有节点的权重 因其在原始数据中观察到的给定条件 Q 的作用而产生偏差 (iii) EHR 之外的原始数据: 来自 ISB 一项研究的多组学概况,其中包含超过 10k 个变量,远远超出了 EHR 提供的 KN 中可观察的节点查询示例:“维生素 K 刺激干细胞信号传导, 那么KG的分子机制是怎样的呢? 将被 EVIDARA 修剪并对照原始数据中的相关证据进行检查:是否存在 有证据表明服用维生素 K 或其拮抗剂可以降低癌症风险吗?”。 在多种类型 KS 的网络上学习,它将向 ARS 提供有关哪种类型的信息 KS/知识提供者调用下一步(在迭代查询中)来改进知识图。 (4) 专业知识和资源:MPI、S. Baranzini (UCSF) 和 S. Huang (ISB) 博士是研究人员 拥有使用医疗大数据的悠久历史,从而提供技术专业知识和 SB 团队创建并维护了独特的独立性。 SPOKE网络将允许NCATS工作人员测试其他ARA带来的数十年的经验。 他的团队将从事疾病机制和医学认识论研究,提供多组学研究。 凭借之前在 NCATS Translator 项目中的工作,他拥有丰富的数据集和数据分析专业知识。 做好充分准备,最大限度地提高团队科学效率,并帮助将其愿景转化为切实的成果。 (5) 潜在挑战 (i) 证据支持的质量取决于原始数据的质量。 控制权超出了 EVIDARA 的范围,但可以由重点关注的知识提供者提供 (ii) 在 Knowledge 的其他 KS 上测试 EVIDARA。 提供商)可能会因互操作性问题(例如不兼容的标识符)而减慢速度。 问题将在第一年初期在标准和参考小组的帮助下得到解决。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

SERGIO E BARANZINI其他文献

SERGIO E BARANZINI的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('SERGIO E BARANZINI', 18)}}的其他基金

EVIDARA: Automated Evidential Support from Raw Data for relay agents in Biomedical KG Queries
EVIDARA:生物医学 KG 查询中中继代理的原始数据自动证据支持
  • 批准号:
    10330633
  • 财政年份:
    2020
  • 资助金额:
    $ 53.29万
  • 项目类别:
EVIDARA: Automated Evidential Support from Raw Data for relay agents in Biomedical KG Queries
EVIDARA:生物医学 KG 查询中中继代理的原始数据自动证据支持
  • 批准号:
    10547256
  • 财政年份:
    2020
  • 资助金额:
    $ 53.29万
  • 项目类别:
EVIDARA: Automated Evidential Support from Raw Data for relay agents in Biomedical KG Queries
EVIDARA:生物医学 KG 查询中中继代理的原始数据自动证据支持
  • 批准号:
    10057190
  • 财政年份:
    2020
  • 资助金额:
    $ 53.29万
  • 项目类别:
The genetic basis of progression in multiple sclerosis
多发性硬化症进展的遗传基础
  • 批准号:
    10084323
  • 财政年份:
    2017
  • 资助金额:
    $ 53.29万
  • 项目类别:
The genetic basis of progression in multiple sclerosis
多发性硬化症进展的遗传基础
  • 批准号:
    9737736
  • 财政年份:
    2017
  • 资助金额:
    $ 53.29万
  • 项目类别:
Post GWAS approach to identify cell-specific genetic pathways underlying MS risk
GWAS 后方法可识别 MS 风险背后的细胞特异性遗传途径
  • 批准号:
    8925166
  • 财政年份:
    2014
  • 资助金额:
    $ 53.29万
  • 项目类别:
Post GWAS approach to identify cell-specific genetic pathways underlying MS risk
GWAS 后方法可识别 MS 风险背后的细胞特异性遗传途径
  • 批准号:
    9116321
  • 财政年份:
    2014
  • 资助金额:
    $ 53.29万
  • 项目类别:
Post GWAS approach to identify cell-specific genetic pathways underlying MS risk
GWAS 后方法可识别 MS 风险背后的细胞特异性遗传途径
  • 批准号:
    9330939
  • 财政年份:
    2014
  • 资助金额:
    $ 53.29万
  • 项目类别:
EXTENSIVE SEARCH FOR AN X-LINKED ACC GENE
广泛搜索 X 连锁 ACC 基因
  • 批准号:
    2418226
  • 财政年份:
    1998
  • 资助金额:
    $ 53.29万
  • 项目类别:

相似国自然基金

基于杂交育种协同进化蚁群算法的工业大数据特征选择研究
  • 批准号:
    62376089
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目
大数据时代面向非线性方程组求解的投影算法及其应用研究
  • 批准号:
    62302331
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
多中心医疗健康大数据融合统计模型与算法研究
  • 批准号:
    12301381
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
大数据聚类和降维中的深度矩阵和张量分解及其有效算法
  • 批准号:
    12361079
  • 批准年份:
    2023
  • 资助金额:
    27 万元
  • 项目类别:
    地区科学基金项目
面向畜产品金融大数据的无监督领域自适应算法研究
  • 批准号:
    62376106
  • 批准年份:
    2023
  • 资助金额:
    49 万元
  • 项目类别:
    面上项目

相似海外基金

Identifying and addressing missingness and bias to enhance discovery from multimodal health data
识别和解决缺失和偏见,以增强多模式健康数据的发现
  • 批准号:
    10637391
  • 财政年份:
    2023
  • 资助金额:
    $ 53.29万
  • 项目类别:
Ethics Core (FABRIC)
道德核心 (FABRIC)
  • 批准号:
    10662376
  • 财政年份:
    2023
  • 资助金额:
    $ 53.29万
  • 项目类别:
Use Bayesian methods to facilitate the data integration for complex clinical trials
使用贝叶斯方法促进复杂临床试验的数据集成
  • 批准号:
    10714225
  • 财政年份:
    2023
  • 资助金额:
    $ 53.29万
  • 项目类别:
Moving Beyond the Individual- A Data-driven Approach to Improving the Evidence on the Role of Community and Societal Determinants of HIV among Adolescent Girls and Young Women in Sub-Saharan Africa
超越个人——采用数据驱动的方法来改善关于艾滋病毒在撒哈拉以南非洲地区少女和年轻妇女中的社区和社会决定因素的作用的证据
  • 批准号:
    10619319
  • 财政年份:
    2023
  • 资助金额:
    $ 53.29万
  • 项目类别:
Exploratory Research Project - ADAPT
探索性研究项目 - ADAPT
  • 批准号:
    10577122
  • 财政年份:
    2023
  • 资助金额:
    $ 53.29万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了