Discovery & Synthesis Chemputer: An intelligent universal system for automated chemical synthesis and discovery across different hardware and scales
发现
基本信息
- 批准号:10905022
- 负责人:
- 金额:$ 21.72万
- 依托单位:
- 依托单位国家:美国
- 项目类别:
- 财政年份:2022
- 资助国家:美国
- 起止时间:2022-06-01 至 2024-04-30
- 项目状态:已结题
- 来源:
- 关键词:Active LearningArtificial IntelligenceBenchmarkingChemicalsChemistryCodeCollaborationsCommunitiesCustomData AnalysesData SetDatabasesFundingGenerationsGrantInfrastructureInstructionIntelligenceLaboratoriesLanguageLife Cycle StagesLiteratureModelingMolecular StructureNational Center for Advancing Translational SciencesNatural Language ProcessingProceduresProgramming LanguagesReactionReportingResearchSoftware ToolsSpecific qualifier valueSystemTestingTrainingUniversitiesWorkWritingchemical synthesisdesigndigitalexperimental studyfitnessheuristicsopen sourcestructured datatool
项目摘要
Project Summary
In this supplement to the collaborative project initiated between the Digital Chemistry Group at the University of
Glasgow and The NCATS ASPIRE laboratory we will deepen the integration of the χDL chemical programming
language with the Open Reaction Database (ORD) as well as integrating Large Language Model (LLM)-based
AI approaches into the generation of χDL procedures directly from retrosynthetic analyses of target compounds.
This work will be accomplished during the term of the original grant. Two specific aims are proposed: 1. Develop
a χDL to ORD bridge which can be instantiated on a chemputer-based physical synthesis platform. (Coley Lab
collaboration); 2. Integrate large language models (LLMs) within the Chemical Description Language (χDL)
framework to generate develop and interface χDLs for closed-loop active learning infrastructures (Chopra Lab
collaboration). These aims will be developed over the term of the funding in a highly integrated and collaborative
working modus operandi. For specific aim one we will develop a set of converters bridging the three stages of
the experimental life cycle: planning, execution, and reporting. This is achieved by integrating the planning and
reporting stages, which can be fully represented by the structured data schema of the ORD, with the central
stage of execution, which is fully expressible in χDL. These converters will include some level of inference,
through heuristics or otherwise, to fill in procedural details that might not be explicitly defined in the original plan.
They can also validate if a plan can be executed in a particular lab in terms of hardware compatibility. We will
realize such converters as open-source software tools and test these tools on a chemputer hardware platform
for a set of benchmark reactions. For specific aim two we will develop an extension to our Natural Language
Processing (NLP) approach to χDL procedure generation by using generated data sets to train a LLM AI system
to be able to produce χDL instruction files directly from retrosynthetic analysis of a desired molecular structure.
This will be accomplished by building a custom set of LLM agents designed to utilize the χDL NLP model to
interpret and write valid χDL code based on user input. By integrating these with the χDL blueprints which are
being developed for benchmark reactions as part of the NCATS ASPIRE collaboration, these χDL instructions
can then be generated from automated retrosynthetic analysis of a given molecule, or class of molecules even
if the suggested reactions do not yet exist in the chemical literature. We will produce specifications for a further
LLM based AI system to interpret the data generated by automatic analysis and to suggest new subsequent
experiments based on a pre-defined fitness function optimization (for example yield or purity of products) which
can be defined experimentally in the automated system.
项目概要
在这份对英国大学数字化学小组发起的合作项目的补充中,
格拉斯哥和 NCATS ASPIRE 实验室我们将深化 χDL 化学编程的整合
语言与开放反应数据库 (ORD) 以及集成基于大型语言模型 (LLM) 的
AI 直接从目标化合物的逆合成分析中生成 χDL 程序。
这项工作将在最初拨款期限内完成,提出了两个具体目标: 1. 发展。
χDL 到 ORD 的桥,可以在基于化学计算机的物理合成平台上实例化(Coley Lab)。
2. 将大型语言模型 (LLM) 集成到化学描述语言 (χDL) 中
为闭环主动学习基础设施生成开发和接口 χDL 的框架(Chopra Lab
这些目标将在资助期限内以高度整合和协作的方式制定。
为了实现特定目标,我们将开发一套桥接三个阶段的转换器。
实验生命周期:计划、执行和报告 这是通过整合计划和报告来实现的。
报告阶段,可以完全由 ORD 的结构化数据模式表示,其中中央
执行阶段,可以用 χDL 完全表达。这些转换器将包括一定程度的推理,
通过启发式或其他方式,填写原始计划中可能未明确定义的程序细节。
他们还可以在硬件兼容性方面验证计划是否可以在特定实验室中执行。
将此类转换器实现为开源软件工具,并在化学计算机硬件平台上测试这些工具
对于一组基准反应,我们将开发自然语言的扩展。
通过使用生成的数据集训练 LLM AI 系统来生成 χDL 程序的处理 (NLP) 方法
能够直接从所需分子结构的逆合成分析中生成χDL指令文件。
这将通过构建一组定制的 LLM 代理来实现,这些代理旨在利用 χDL NLP 模型来
根据用户输入解释并编写有效的 χDL 代码,将其与 χDL 蓝图集成。
作为 NCATS ASPIRE 合作的一部分,这些 χDL 指令是为基准反应而开发的
然后可以通过给定分子或分子类别的自动逆合成分析生成
如果化学文献中尚不存在建议的反应,我们将制定进一步的规范。
基于法学硕士的人工智能系统解释自动分析生成的数据并提出新的后续建议
基于预定义的适应度函数优化(例如产品的产量或纯度)的实验
可以在自动化系统中通过实验来定义。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
GAURAV CHOPRA其他文献
GAURAV CHOPRA的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('GAURAV CHOPRA', 18)}}的其他基金
Chemical instruments-aware distributed blockchain based open AI platform to accelerate drug discovery
基于化学仪器感知的分布式区块链开放人工智能平台,加速药物发现
- 批准号:
10448092 - 财政年份:2022
- 资助金额:
$ 21.72万 - 项目类别:
Chemical instruments-aware distributed blockchain based open AI platform to accelerate drug discovery
基于化学仪器感知的分布式区块链开放人工智能平台,加速药物发现
- 批准号:
10665719 - 财政年份:2022
- 资助金额:
$ 21.72万 - 项目类别:
Development of a high throughput system for molecular imaging of different cell types in mouse brain tissues
开发用于小鼠脑组织中不同细胞类型的分子成像的高通量系统
- 批准号:
10369883 - 财政年份:2021
- 资助金额:
$ 21.72万 - 项目类别:
相似国自然基金
基于物理约束人工智能的缺资料流域山洪模拟方法研究
- 批准号:42371086
- 批准年份:2023
- 资助金额:52 万元
- 项目类别:面上项目
基于多模态分子影像和人工智能的结直肠癌PD-L1表达演变预测及机制研究
- 批准号:82302185
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
人工智能工具对预期与货币政策有效性影响的实验研究
- 批准号:72303050
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
基于人工智能的微结构光纤研究
- 批准号:62375013
- 批准年份:2023
- 资助金额:54 万元
- 项目类别:面上项目
基于人工智能集成组学多维信息探究地黄饮子调控“星形胶质细胞-神经元耦合失衡”治疗AD的益肾填髓作用
- 批准号:82374422
- 批准年份:2023
- 资助金额:48 万元
- 项目类别:面上项目
相似海外基金
ClinEX - Clinical Evidence Extraction, Representation, and Appraisal
ClinEX - 临床证据提取、表示和评估
- 批准号:
10754029 - 财政年份:2023
- 资助金额:
$ 21.72万 - 项目类别:
Artificial Intelligence for Dynamic, individualized CPR guidance: AID CPR
人工智能提供动态、个性化的心肺复苏指导:AID CPR
- 批准号:
10644648 - 财政年份:2023
- 资助金额:
$ 21.72万 - 项目类别:
Discovering clinical endpoints of toxicity via graph machine learning and semantic data analysis
通过图机器学习和语义数据分析发现毒性的临床终点
- 批准号:
10745593 - 财政年份:2023
- 资助金额:
$ 21.72万 - 项目类别:
Personalized Risk Stratification in Atrial Fibrillation using Portable, Explainable Artificial Intelligence
使用便携式、可解释的人工智能对心房颤动进行个性化风险分层
- 批准号:
10905154 - 财政年份:2023
- 资助金额:
$ 21.72万 - 项目类别: