Collaborative Research: IIS: III: MEDIUM: Learning Protein-ish: Foundational Insight on Protein Language Models for Better Understanding, Democratized Access, and Discovery
协作研究:IIS:III:中等:学习蛋白质:对蛋白质语言模型的基础洞察,以更好地理解、民主化访问和发现
基本信息
- 批准号:2310113
- 负责人:
- 金额:$ 59.99万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Standard Grant
- 财政年份:2023
- 资助国家:美国
- 起止时间:2023-08-01 至 2026-07-31
- 项目状态:未结题
- 来源:
- 关键词:
项目摘要
Large language models are massive neural networks that learn rich contextual representations of words and use such representations to address a variety of tasks in natural language processing (NLP). These models are a prominent example of generative artificial intelligence and are emerging as promising approaches for distilling and organizing the content of massive biological databases and for predicting a wide range of molecular bio-properties. Yet, we know surprisingly little about what these models capture in their learned representations, why they perform well on some tasks and not on others, and how they can produce deep insight into the relationships describing the biological space. If progress in NLP is any indication, the current trend of improving the performance of language models by drastically increasing the number of their trainable parameters is unsustainable both for our carbon footprint and for ensuring equity/accessibility of research and scholarship in the academic setting. This project advances algorithmic research at the intersection of information integration and informatics using principled protein language models (PLMs) as computational vehicles for deeper insight into the structural, functional, and evolutionary organization across protein space at varying levels of detail and scale. It also aims to do so in a way that is resource-aware, sustainable, and accessible to all researchers. The research activities are organized in three thrusts: (1) encoding prior biological knowledge in PLMs for joint and resource-aware learning in composite spaces, (2) revealing fundamental properties and organizing the learned representation space to inform and connect what is captured with properties of interest, and (3) enabling PLMs to capture diverse contexts for deeper exploration of the structural, functional, and evolutionary organization across protein space. This interdisciplinary approach contributes to the fields of machine learning, bioinformatics, and molecular biology and provides opportunities at the interface of these disciplines for training under-represented students of all levels. The investigators are determined to bridge communities and disciplines, and they have planned activities to build and galvanize a trans-disciplinary community to further advance their research.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
大型语言模型是大型神经网络,可以学习丰富的单词上下文表示,并使用此类表示来解决自然语言处理 (NLP) 中的各种任务。这些模型是生成人工智能的一个突出例子,并且正在成为提炼和组织大规模生物数据库内容以及预测各种分子生物特性的有前途的方法。然而,令人惊讶的是,我们对这些模型在其学习表征中捕捉到的内容、为什么它们在某些任务上表现良好而在其他任务上表现不佳,以及它们如何能够深入了解描述生物空间的关系知之甚少。如果 NLP 的进展有任何迹象的话,那么当前通过大幅增加可训练参数的数量来提高语言模型性能的趋势对于我们的碳足迹以及确保学术环境中研究和学术的公平/可及性来说都是不可持续的。该项目使用原则性蛋白质语言模型(PLM)作为计算工具,推进信息集成和信息学交叉领域的算法研究,以更深入地了解蛋白质空间中不同细节和规模的结构、功能和进化组织。它还旨在以一种资源意识强、可持续且可供所有研究人员使用的方式来实现这一目标。研究活动分为三个重点:(1) 在 PLM 中编码先验生物知识,以便在复合空间中进行联合和资源感知学习,(2) 揭示基本属性并组织学习的表示空间,以告知和连接所捕获的内容与属性(3) 使 PLM 能够捕获不同的背景,以便更深入地探索整个蛋白质空间的结构、功能和进化组织。这种跨学科方法有助于机器学习、生物信息学和分子生物学领域的发展,并为这些学科的交叉点提供机会,以培训各个级别的代表性不足的学生。研究人员决心在社区和学科之间架起桥梁,并计划开展活动来建立和激励跨学科社区,以进一步推进他们的研究。该奖项反映了 NSF 的法定使命,并通过使用基金会的智力价值进行评估,被认为值得支持以及更广泛的影响审查标准。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Amarda Shehu其他文献
A Spatial EA Framework for Parallelizing Machine Learning Methods
用于并行化机器学习方法的空间 EA 框架
- DOI:
10.1007/978-3-642-32937-1_21 - 发表时间:
2012-09-01 - 期刊:
- 影响因子:0
- 作者:
Uday Kamath;Johan Kaers;Amarda Shehu;K. D. Jong - 通讯作者:
K. D. Jong
A Survey of Computational Treatments of Biomolecules by Robotics-Inspired Methods Modeling Equilibrium Structure and Dynamic
通过机器人启发的平衡结构和动态建模方法对生物分子的计算处理的调查
- DOI:
10.1613/jair.5040 - 发表时间:
2016-09-01 - 期刊:
- 影响因子:0
- 作者:
Amarda Shehu;E. Plaku - 通讯作者:
E. Plaku
Protein conformational search with geometric projections
使用几何投影进行蛋白质构象搜索
- DOI:
10.1109/bibmw.2011.6112400 - 发表时间:
2011-11-12 - 期刊:
- 影响因子:0
- 作者:
Brian S. Olson;S. F. Hendi;Amarda Shehu - 通讯作者:
Amarda Shehu
Menthol Inhibits 5-HT3 Receptor–Mediated Currents
薄荷醇抑制 5-HT3 受体 — 介导的电流
- DOI:
10.1124/jpet.113.203976 - 发表时间:
2013-11-01 - 期刊:
- 影响因子:0
- 作者:
A. Ashoor;Jacob C. Nordman;Daniel Veltri;Keun;Y. Shuba;L. A. Al Kury;B. Sadek;F. Howarth;Amarda Shehu;N. Kabbani;M. Oz - 通讯作者:
M. Oz
Investigation of a dilated cardiomyopathy-associated variant in BAG3 using genome-edited iPSC-derived cardiomyocytes.
使用基因组编辑的 iPSC 衍生心肌细胞研究 BAG3 中与扩张型心肌病相关的变异。
- DOI:
10.1172/jci.insight.128799 - 发表时间:
2019-11-14 - 期刊:
- 影响因子:8
- 作者:
Chris McDermott;Wenjian Lv;T. Maximova;Shogo Wada;J. Bukowy;Maribel Marquez;Shuping Lai;Amarda Shehu;I. Benjamin;A. Geurts;K. Musunuru - 通讯作者:
K. Musunuru
Amarda Shehu的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Amarda Shehu', 18)}}的其他基金
Collaborative Research: Conference: Large Language Models for Biological Discoveries (LLMs4Bio)
合作研究:会议:生物发现的大型语言模型 (LLMs4Bio)
- 批准号:
2411529 - 财政年份:2024
- 资助金额:
$ 59.99万 - 项目类别:
Standard Grant
Collaborative Research: IIBR: Innovation: Bioinformatics: Linking Chemical and Biological Space: Deep Learning and Experimentation for Property-Controlled Molecule Generation
合作研究:IIBR:创新:生物信息学:连接化学和生物空间:属性控制分子生成的深度学习和实验
- 批准号:
2318829 - 财政年份:2023
- 资助金额:
$ 59.99万 - 项目类别:
Continuing Grant
Intergovernmental Personnel Act
政府间人事法
- 批准号:
1948645 - 财政年份:2019
- 资助金额:
$ 59.99万 - 项目类别:
Intergovernmental Personnel Award
Travel Awards for 2015 IEEE International Conference on Bioinformatics and Biomedicine (BIBM-2015)
2015 年 IEEE 国际生物信息学和生物医学会议 (BIBM-2015) 旅行奖
- 批准号:
1543744 - 财政年份:2015
- 资助金额:
$ 59.99万 - 项目类别:
Standard Grant
Collaborative: SI2-SSE - A Plug-and-Play Software Platform of Robotics-Inspired Algorithms for Modeling Biomolecular Structures and Motions
协作:SI2-SSE - 用于生物分子结构和运动建模的机器人启发算法的即插即用软件平台
- 批准号:
1440581 - 财政年份:2015
- 资助金额:
$ 59.99万 - 项目类别:
Standard Grant
CCF: AF: Small: Novel Stochastic Optimization Algorithms to Advance the Treatment of Dynamic Molecular Systems
CCF:AF:Small:新型随机优化算法推进动态分子系统的治疗
- 批准号:
1421001 - 财政年份:2014
- 资助金额:
$ 59.99万 - 项目类别:
Standard Grant
Workshop: 2014 NSF CISE CAREER Proposal Writing Workshop
研讨会:2014 NSF CISE CAREER 提案写作研讨会
- 批准号:
1415210 - 财政年份:2013
- 资助金额:
$ 59.99万 - 项目类别:
Standard Grant
CAREER: Probabilistic Methods for Addressing Complexity and Constraints in Protein Systems
职业:解决蛋白质系统复杂性和约束的概率方法
- 批准号:
1144106 - 财政年份:2012
- 资助金额:
$ 59.99万 - 项目类别:
Continuing Grant
AF: Small: A Unified Computational Framework to Enhance the Ab-Initio Sampling of Native-Like Protein Conformations
AF:小型:增强类天然蛋白质构象从头开始采样的统一计算框架
- 批准号:
1016995 - 财政年份:2010
- 资助金额:
$ 59.99万 - 项目类别:
Standard Grant
相似国自然基金
面向复杂深空探测任务的高性能智能开环射电信息系统关键模块的研究与设计
- 批准号:62371177
- 批准年份:2023
- 资助金额:49 万元
- 项目类别:面上项目
面向广义多尺度信息系统的决策与预测问题研究
- 批准号:12271146
- 批准年份:2022
- 资助金额:46 万元
- 项目类别:面上项目
基于驾驶安全的车载信息系统人因设计规范研究
- 批准号:
- 批准年份:2022
- 资助金额:54 万元
- 项目类别:面上项目
IIS/TOR通路调控蜜蜂工蜂生殖发育的分子机制研究
- 批准号:
- 批准年份:2022
- 资助金额:30 万元
- 项目类别:青年科学基金项目
基于非线性信息系统的信号量化与信道编码中的随机共振功效研究
- 批准号:62201284
- 批准年份:2022
- 资助金额:30 万元
- 项目类别:青年科学基金项目
相似海外基金
Collaborative Research: IIS: III: MEDIUM: Learning Protein-ish: Foundational Insight on Protein Language Models for Better Understanding, Democratized Access, and Discovery
协作研究:IIS:III:中等:学习蛋白质:对蛋白质语言模型的基础洞察,以更好地理解、民主化访问和发现
- 批准号:
2310114 - 财政年份:2023
- 资助金额:
$ 59.99万 - 项目类别:
Standard Grant
Collaborative Research: IIS Core: Small: World Values of Conversational AI and the Consequences for Human-AI Interaction
协作研究:IIS 核心:小:对话式 AI 的世界价值以及人机交互的后果
- 批准号:
2230466 - 财政年份:2023
- 资助金额:
$ 59.99万 - 项目类别:
Standard Grant
Collaborative Research: IIS Core: Small: World Values of Conversational AI and the Consequences for Human-AI Interaction
协作研究:IIS 核心:小:对话式 AI 的世界价值以及人机交互的后果
- 批准号:
2230467 - 财政年份:2023
- 资助金额:
$ 59.99万 - 项目类别:
Standard Grant
Collaborative Research: IIS-III: Small Towards Fair Outlier Detection
协作研究:IIS-III:小到公平的异常值检测
- 批准号:
2310481 - 财政年份:2023
- 资助金额:
$ 59.99万 - 项目类别:
Standard Grant
Collaborative Research: CISE-MSI: DP: IIS RI: Research Capacity Expansion via Development of AI Based Algorithms for Optimal Management of Electric Vehicle Transactions with Grid
合作研究:CISE-MSI:DP:IIS RI:通过开发基于人工智能的算法来扩展研究能力,以实现电动汽车与电网交易的优化管理
- 批准号:
2318612 - 财政年份:2023
- 资助金额:
$ 59.99万 - 项目类别:
Standard Grant