Virtual Approaches to New Chemistries
新化学的虚拟方法
基本信息
- 批准号:10447249
- 负责人:
- 金额:$ 44万
- 依托单位:
- 依托单位国家:美国
- 项目类别:
- 财政年份:2022
- 资助国家:美国
- 起止时间:2022-06-06 至 2024-05-31
- 项目状态:已结题
- 来源:
- 关键词:AbbreviationsAddressAlgorithmsAutomationBackBiologicalBiological AssayCategoriesCharacteristicsChemical StructureChemicalsChemistryCollectionDataDatabasesDescriptorDrug DesignEvaluationFAIR principlesGenerationsGoalsHumanInformaticsInternetLearning ModuleMachine LearningMeasuresMethodologyModelingNational Center for Advancing Translational SciencesNatural Language ProcessingNatural regenerationNatureOntologyProcessProgram DevelopmentProtocols documentationQuantitative Structure-Activity RelationshipReactionReadabilityReagentRecipeResearch PersonnelRunningSchemeScientistSemanticsSolventsSorting - Cell MovementStructureSystemTechnologyTextUpdateVendorVisualWorkbasechemical reactiondeep learningdesigndrug developmentexperienceinstrumentinteractive toolknowledge basenatural languagenew technologynovelpreferencesmall moleculestoichiometrysuccesstoolvectorvirtual
项目摘要
Project Summary/Abstract
Two new virtual chemistry technologies will be added to the NCATS ASPIRE project as separate modules. The
first module will enable new chemistries to be modelled and selected from cutting edge (deep) machine
learning technology using the latest structure/activity data taken directly from instruments. The second module
will be a novel informatics system for capturing chemistry-rich data in a semantic template as
machine-readable reactions which will increase the utility of chemical reactions in electronic lab notebooks and
allow more precise interrogation and automation of reaction analyses (and their corresponding reaction
products).
The deep learning technology in module 1 is based on our new chemically rich vector (CRV) methodology,
which is able to compress information about chemical structures into a vector of 64 numbers with an efficiency
that allows the encoding process to be reversed: not only can a CRV be converted back into its original
structure with high success (>90% exact match), but a modified CRV can be converted into a structure that is
representative of that point in chemical space. CRVs make excellent descriptors for SAR/QSAR iteration
because they contain much more chemical information in a small space, allowing the automation of
structure-activity models to be more streamlined, relative to conventional descriptors. The resulting models will
explore the multi-dimensional space via an interactive visual interface (human-directed) or a back-end
algorithm to constantly search for new and better structures (machine-directed). Both interactive and
automated processes will be connected back into the ASPIRE automation cycle so that they can be
synthesized and measured (hypothesis evaluation and iterative optimization).
The second module, machine-readable reactions, draws from our extensive experience developing the
BioHarmony Annotator (formerly: BioAssay Express) which uses natural language models to assign semantic
ontology terms to biological assay protocols, turning them from unstructured text into machine-readable data.
Extracting the full content of reactions from protocols and chemical structure diagrams is remarkably difficult
given the unstructured nature of text, abbreviations, shortcuts and assumptions that go into diagrams. It is
further complicated by the need to connect the materials in the scheme with the reaction text description (e.g.
reagents, solvents, the sequences involved in the recipe, reaction workup, and product characterization). As an
alternative, we will modularize the CDD stoichiometric sketcher, which will allow us to extract this data. We will
work with NCATS to identify important fields to capture, creating a machine readable chemical reaction
template.
项目概要/摘要
两项新的虚拟化学技术将作为单独的模块添加到 NCATS ASPIRE 项目中。这
第一个模块将使新化学物质能够从尖端(深)机器中建模和选择
使用直接从仪器获取的最新结构/活动数据来学习技术。第二模块
将是一种新颖的信息学系统,用于在语义模板中捕获丰富的化学数据,如下所示
机器可读的反应将增加电子实验室笔记本中化学反应的实用性
允许更精确的询问和反应分析的自动化(及其相应的反应
产品)。
模块 1 中的深度学习技术基于我们新的化学富载体 (CRV) 方法,
它能够高效地将化学结构信息压缩为 64 个数字的向量
允许逆转编码过程:CRV 不仅可以转换回其原始状态
结构具有很高的成功率(>90% 精确匹配),但修改后的 CRV 可以转换为以下结构:
代表化学空间中的那个点。 CRV 为 SAR/QSAR 迭代提供了出色的描述符
因为它们在很小的空间中包含更多的化学信息,从而可以实现自动化
相对于传统的描述符,结构-活动模型更加简化。由此产生的模型将
通过交互式视觉界面(人为导向)或后端探索多维空间
算法不断寻找新的和更好的结构(机器导向)。既可以互动又可以
自动化流程将重新连接到 ASPIRE 自动化循环中,以便它们可以
综合和测量(假设评估和迭代优化)。
第二个模块,机器可读的反应,借鉴了我们开发
BioHarmony Annotator(以前:BioAssay Express)使用自然语言模型来分配语义
将本体术语转化为生物检测协议,将其从非结构化文本转变为机器可读的数据。
从方案和化学结构图中提取反应的全部内容非常困难
考虑到图表中文本、缩写、快捷方式和假设的非结构化性质。这是
由于需要将方案中的材料与反应文本描述(例如,
试剂、溶剂、配方中涉及的序列、反应后处理和产品表征)。作为一个
或者,我们将对 CDD 化学计量草图进行模块化,这将使我们能够提取这些数据。我们将
与 NCATS 合作确定要捕获的重要字段,创建机器可读的化学反应
模板。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
BARRY A BUNIN其他文献
BARRY A BUNIN的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('BARRY A BUNIN', 18)}}的其他基金
Automated Molecular Identity Disambiguator (AutoMID)
自动分子身份消歧器 (AutoMID)
- 批准号:
10357906 - 财政年份:2020
- 资助金额:
$ 44万 - 项目类别:
Automated Molecular Identity Disambiguator (AutoMID)
自动分子身份消歧器 (AutoMID)
- 批准号:
10569639 - 财政年份:2020
- 资助金额:
$ 44万 - 项目类别:
Intelligent Chemical Structure Browser for Drug Discovery and Optimization
用于药物发现和优化的智能化学结构浏览器
- 批准号:
10241834 - 财政年份:2019
- 资助金额:
$ 44万 - 项目类别:
A Robust, Secure Framework to Effortlessly Bind Distributed Databases and Analysis Tools into Tightly Integrated Translational Drug Discovery Computational Platforms
一个强大、安全的框架,可以轻松地将分布式数据库和分析工具绑定到紧密集成的转化药物发现计算平台中
- 批准号:
10484172 - 财政年份:2019
- 资助金额:
$ 44万 - 项目类别:
Digital representation of chemical mixtures to aid drug discovery and formulation
化学混合物的数字表示以帮助药物发现和配制
- 批准号:
9902210 - 财政年份:2019
- 资助金额:
$ 44万 - 项目类别:
A Robust, Secure Framework to Effortlessly Bind Distributed Databases and Analysis Tools into Tightly Integrated Translational Drug Discovery Computational Platforms
一个强大、安全的框架,可以轻松地将分布式数据库和分析工具绑定到紧密集成的转化药物发现计算平台中
- 批准号:
10685358 - 财政年份:2019
- 资助金额:
$ 44万 - 项目类别:
Intelligent Chemical Structure Browser for Drug Discovery and Optimization
用于药物发现和优化的智能化学结构浏览器
- 批准号:
10386918 - 财政年份:2019
- 资助金额:
$ 44万 - 项目类别:
Novel deep learning strategy to better predict pharmacological properties of candidate drugs and focus discovery efforts
新颖的深度学习策略可以更好地预测候选药物的药理学特性并集中发现工作
- 批准号:
10133177 - 财政年份:2018
- 资助金额:
$ 44万 - 项目类别:
Novel deep learning strategy to better predict pharmacological properties of candidate drugs and focus discovery efforts
新颖的深度学习策略可以更好地预测候选药物的药理学特性并集中发现工作
- 批准号:
10004481 - 财政年份:2018
- 资助金额:
$ 44万 - 项目类别:
相似国自然基金
时空序列驱动的神经形态视觉目标识别算法研究
- 批准号:61906126
- 批准年份:2019
- 资助金额:24.0 万元
- 项目类别:青年科学基金项目
本体驱动的地址数据空间语义建模与地址匹配方法
- 批准号:41901325
- 批准年份:2019
- 资助金额:22.0 万元
- 项目类别:青年科学基金项目
大容量固态硬盘地址映射表优化设计与访存优化研究
- 批准号:61802133
- 批准年份:2018
- 资助金额:23.0 万元
- 项目类别:青年科学基金项目
针对内存攻击对象的内存安全防御技术研究
- 批准号:61802432
- 批准年份:2018
- 资助金额:25.0 万元
- 项目类别:青年科学基金项目
IP地址驱动的多径路由及流量传输控制研究
- 批准号:61872252
- 批准年份:2018
- 资助金额:64.0 万元
- 项目类别:面上项目
相似海外基金
Synthesizability-constrained expansion and multi-objective evolution of antitubercular compounds
抗结核化合物的可合成性约束扩展和多目标进化
- 批准号:
10594577 - 财政年份:2022
- 资助金额:
$ 44万 - 项目类别:
Novel deep learning strategy to translate ICD Codes to the Abbreviated Injury Scale
将 ICD 代码转换为缩写伤害量表的新颖深度学习策略
- 批准号:
10532796 - 财政年份:2021
- 资助金额:
$ 44万 - 项目类别: