Virtual Approaches to New Chemistries
新化学的虚拟方法
基本信息
- 批准号:10447249
- 负责人:
- 金额:$ 44万
- 依托单位:
- 依托单位国家:美国
- 项目类别:
- 财政年份:2022
- 资助国家:美国
- 起止时间:2022-06-06 至 2024-05-31
- 项目状态:已结题
- 来源:
- 关键词:AbbreviationsAddressAlgorithmsAutomationBackBiologicalBiological AssayCategoriesCharacteristicsChemical StructureChemicalsChemistryCollectionDataDatabasesDescriptorDrug DesignEvaluationFAIR principlesGenerationsGoalsHumanInformaticsInternetLearning ModuleMachine LearningMeasuresMethodologyModelingNational Center for Advancing Translational SciencesNatural Language ProcessingNatural regenerationNatureOntologyProcessProgram DevelopmentProtocols documentationQuantitative Structure-Activity RelationshipReactionReadabilityReagentRecipeResearch PersonnelRunningSchemeScientistSemanticsSolventsSorting - Cell MovementStructureSystemTechnologyTextUpdateVendorVisualWorkbasechemical reactiondeep learningdesigndrug developmentexperienceinstrumentinteractive toolknowledge basenatural languagenew technologynovelpreferencesmall moleculestoichiometrysuccesstoolvectorvirtual
项目摘要
Project Summary/Abstract
Two new virtual chemistry technologies will be added to the NCATS ASPIRE project as separate modules. The
first module will enable new chemistries to be modelled and selected from cutting edge (deep) machine
learning technology using the latest structure/activity data taken directly from instruments. The second module
will be a novel informatics system for capturing chemistry-rich data in a semantic template as
machine-readable reactions which will increase the utility of chemical reactions in electronic lab notebooks and
allow more precise interrogation and automation of reaction analyses (and their corresponding reaction
products).
The deep learning technology in module 1 is based on our new chemically rich vector (CRV) methodology,
which is able to compress information about chemical structures into a vector of 64 numbers with an efficiency
that allows the encoding process to be reversed: not only can a CRV be converted back into its original
structure with high success (>90% exact match), but a modified CRV can be converted into a structure that is
representative of that point in chemical space. CRVs make excellent descriptors for SAR/QSAR iteration
because they contain much more chemical information in a small space, allowing the automation of
structure-activity models to be more streamlined, relative to conventional descriptors. The resulting models will
explore the multi-dimensional space via an interactive visual interface (human-directed) or a back-end
algorithm to constantly search for new and better structures (machine-directed). Both interactive and
automated processes will be connected back into the ASPIRE automation cycle so that they can be
synthesized and measured (hypothesis evaluation and iterative optimization).
The second module, machine-readable reactions, draws from our extensive experience developing the
BioHarmony Annotator (formerly: BioAssay Express) which uses natural language models to assign semantic
ontology terms to biological assay protocols, turning them from unstructured text into machine-readable data.
Extracting the full content of reactions from protocols and chemical structure diagrams is remarkably difficult
given the unstructured nature of text, abbreviations, shortcuts and assumptions that go into diagrams. It is
further complicated by the need to connect the materials in the scheme with the reaction text description (e.g.
reagents, solvents, the sequences involved in the recipe, reaction workup, and product characterization). As an
alternative, we will modularize the CDD stoichiometric sketcher, which will allow us to extract this data. We will
work with NCATS to identify important fields to capture, creating a machine readable chemical reaction
template.
项目摘要/摘要
NCATS ASPIRE项目将以单独的模块添加两种新的虚拟化学技术。这
第一个模块将使新的化学物质能够建模并从尖端(深)机器中选择
使用直接从工具中获取的最新结构/活动数据的学习技术。第二个模块
将是一种新颖的信息系统,用于在语义模板中捕获化学丰富的数据作为
机器可读反应将增加电子实验室笔记本中化学反应的效用
允许对反应分析的更精确的询问和自动化(及其相应的反应
产品)。
模块1中的深度学习技术基于我们的新化学丰富向量(CRV)方法论,
能够将有关化学结构的信息压缩到具有效率的64个数字的向量中
这允许编码过程被颠倒:不仅可以将CRV转换为原始
成功的结构很高(> 90%精确匹配),但是修改后的CRV可以转换为一个结构
化学空间中该点的代表。 CRV为SAR/QSAR迭代提供了出色的描述符
因为它们在较小的空间中包含更多的化学信息,因此可以自动化
相对于常规描述符,结构活性模型更加精简。由此产生的模型将
通过交互式视觉界面(人为指导)或后端探索多维空间
算法不断搜索新的和更好的结构(机器定向)。互动和
自动化过程将被连接到Aspire自动化周期,以便它们可以
合成和测量(假设评估和迭代优化)。
第二个模块,机器可读的反应,从我们的丰富经验中汲取了发展
Bioharmony注释器(以前:Bioassay Express)使用自然语言模型来分配语义
生物测定协议的本体术语,将其从非结构化的文本转变为可读的数据。
从方案和化学结构图中提取反应的全部内容非常困难
鉴于文本的非结构化性质,缩写,快捷方式和图表的假设。这是
需要将方案中的材料与反应文本描述联系起来更加复杂(例如
试剂,溶剂,配方中涉及的序列,反应工作和产品表征)。作为
替代方案,我们将模块化CDD化学计量学素描器,这将使我们能够提取此数据。我们将
与NCAT合作以识别重要领域以捕获,创建机器可读的化学反应
模板。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
BARRY A BUNIN其他文献
BARRY A BUNIN的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('BARRY A BUNIN', 18)}}的其他基金
Automated Molecular Identity Disambiguator (AutoMID)
自动分子身份消歧器 (AutoMID)
- 批准号:
10357906 - 财政年份:2020
- 资助金额:
$ 44万 - 项目类别:
Automated Molecular Identity Disambiguator (AutoMID)
自动分子身份消歧器 (AutoMID)
- 批准号:
10569639 - 财政年份:2020
- 资助金额:
$ 44万 - 项目类别:
Intelligent Chemical Structure Browser for Drug Discovery and Optimization
用于药物发现和优化的智能化学结构浏览器
- 批准号:
10241834 - 财政年份:2019
- 资助金额:
$ 44万 - 项目类别:
A Robust, Secure Framework to Effortlessly Bind Distributed Databases and Analysis Tools into Tightly Integrated Translational Drug Discovery Computational Platforms
一个强大、安全的框架,可以轻松地将分布式数据库和分析工具绑定到紧密集成的转化药物发现计算平台中
- 批准号:
10484172 - 财政年份:2019
- 资助金额:
$ 44万 - 项目类别:
Digital representation of chemical mixtures to aid drug discovery and formulation
化学混合物的数字表示以帮助药物发现和配制
- 批准号:
9902210 - 财政年份:2019
- 资助金额:
$ 44万 - 项目类别:
A Robust, Secure Framework to Effortlessly Bind Distributed Databases and Analysis Tools into Tightly Integrated Translational Drug Discovery Computational Platforms
一个强大、安全的框架,可以轻松地将分布式数据库和分析工具绑定到紧密集成的转化药物发现计算平台中
- 批准号:
10685358 - 财政年份:2019
- 资助金额:
$ 44万 - 项目类别:
Intelligent Chemical Structure Browser for Drug Discovery and Optimization
用于药物发现和优化的智能化学结构浏览器
- 批准号:
10386918 - 财政年份:2019
- 资助金额:
$ 44万 - 项目类别:
Novel deep learning strategy to better predict pharmacological properties of candidate drugs and focus discovery efforts
新颖的深度学习策略可以更好地预测候选药物的药理学特性并集中发现工作
- 批准号:
10133177 - 财政年份:2018
- 资助金额:
$ 44万 - 项目类别:
Novel deep learning strategy to better predict pharmacological properties of candidate drugs and focus discovery efforts
新颖的深度学习策略可以更好地预测候选药物的药理学特性并集中发现工作
- 批准号:
10004481 - 财政年份:2018
- 资助金额:
$ 44万 - 项目类别:
相似国自然基金
时空序列驱动的神经形态视觉目标识别算法研究
- 批准号:61906126
- 批准年份:2019
- 资助金额:24.0 万元
- 项目类别:青年科学基金项目
本体驱动的地址数据空间语义建模与地址匹配方法
- 批准号:41901325
- 批准年份:2019
- 资助金额:22.0 万元
- 项目类别:青年科学基金项目
大容量固态硬盘地址映射表优化设计与访存优化研究
- 批准号:61802133
- 批准年份:2018
- 资助金额:23.0 万元
- 项目类别:青年科学基金项目
IP地址驱动的多径路由及流量传输控制研究
- 批准号:61872252
- 批准年份:2018
- 资助金额:64.0 万元
- 项目类别:面上项目
针对内存攻击对象的内存安全防御技术研究
- 批准号:61802432
- 批准年份:2018
- 资助金额:25.0 万元
- 项目类别:青年科学基金项目
相似海外基金
Synthesizability-constrained expansion and multi-objective evolution of antitubercular compounds
抗结核化合物的可合成性约束扩展和多目标进化
- 批准号:
10594577 - 财政年份:2022
- 资助金额:
$ 44万 - 项目类别:
Novel deep learning strategy to translate ICD Codes to the Abbreviated Injury Scale
将 ICD 代码转换为缩写伤害量表的新颖深度学习策略
- 批准号:
10532796 - 财政年份:2021
- 资助金额:
$ 44万 - 项目类别: