Collaborative Research: CIF:Medium:Theoretical Foundations of Compositional Learning in Transformer Models
合作研究:CIF:Medium:Transformer 模型中组合学习的理论基础
基本信息
- 批准号:2403075
- 负责人:
- 金额:$ 40万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Standard Grant
- 财政年份:2024
- 资助国家:美国
- 起止时间:2024-07-01 至 2028-06-30
- 项目状态:未结题
- 来源:
- 关键词:
项目摘要
Large Language Models (LLMs) based on transformer architectures, such as GPT-4, Llama 2, and Claude 3, have demonstrated remarkable emergent capabilities in compositional reasoning, allowing them to tackle complex tasks by decomposing them into simpler intermediate steps. Examples to these tasks include text and code generation, basic arithmetic and problem solving, and answering complex questions. Despite these empirical advances, the underlying mechanics of these capabilities remain largely unexplored. This collaborative research project aims to investigate the theoretical foundations of compositional learning in transformer models, focusing on three key areas: model expressivity, statistical learning theory, and optimization, aiming to develop novel learning guarantees, algorithms, architectures, and design principles that significantly advance the development of more capable and interpretable Artificial Intelligence (AI) and LLM systems. The research findings will be incorporated into educational curricula, fostering a diverse community around transformers, compositional learning, and their applications. The project will also engage the broader public through workshops and outreach activities, promoting responsible AI practices and AI education for undergraduate and K-12 students.The first thrust will explore the expressive capacity of transformers augmented with loops, memory, and external tools, which are essential for compositional reasoning. The second thrust will examine the statistical properties of autoregressive training using compositional data to understand its limits, benefits, and ability to generalize to novel problem instances. This is expected to lead to new theories of compositional learning that will highlight the role of skill acquisition and composition. The third thrust will investigate the optimization principles of compositional learning with transformers. This research will shed light on the optimization landscape and identify techniques for more efficient training of transformers through compositional techniques.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
大型语言模型(LLM)基于变压器体系结构,例如GPT-4,Llama 2和Claude 3,在组成推理中表现出了出色的新兴功能,从而使它们可以通过将它们分解为简单的中间步骤来解决复杂的任务。这些任务的示例包括文本和代码生成,基本算术和解决问题以及回答复杂问题。尽管有这些经验的进步,但这些能力的基本机制在很大程度上尚未得到探索。该协作研究项目旨在调查变形金刚模型中构图学习的理论基础,重点关注三个关键领域:模型表达性,统计学习理论和优化,旨在开发新颖的学习保证,算法,体系结构和设计原理,从而显着促进更有能力和可解释的人工智能(AI)和LLM系统的发展。研究发现将纳入教育课程中,培养围绕变形金刚,组成学习及其应用的多样化社区。该项目还将通过研讨会和外展活动吸引更广泛的公众,促进负责任的AI实践和针对本科生和K-12学生的AI教育。第一个推力将探索具有循环,记忆和外部工具增强变压器的表达能力,这对于组成推理至关重要。第二个推力将使用组成数据检查自回归训练的统计特性,以了解其限制,收益和推广到新的问题实例的能力。预计这将导致构图学习的新理论,这些理论将突出技能获取和组成的作用。第三个推力将研究变压器组成学习的优化原理。这项研究将阐明优化景观,并通过组成技术确定对变压器进行更有效培训的技术。该奖项反映了NSF的法定任务,并被认为是值得通过基金会的知识分子和更广泛影响的评估评估标准的评估值得支持的。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Samet Oymak其他文献
Noise in the reverse process improves the approximation capabilities of diffusion models
逆向过程中的噪声提高了扩散模型的逼近能力
- DOI:
- 发表时间:
2023 - 期刊:
- 影响因子:0
- 作者:
Karthik Elamvazhuthi;Samet Oymak;Fabio Pasqualetti - 通讯作者:
Fabio Pasqualetti
Learning Feature Nonlinearities with Non-Convex Regularized Binned Regression
使用非凸正则化分箱回归学习特征非线性
- DOI:
- 发表时间:
2017 - 期刊:
- 影响因子:0
- 作者:
Samet Oymak;M. Mahdavi;Jiasi Chen - 通讯作者:
Jiasi Chen
Phase retrieval for sparse signals using rank minimization
使用秩最小化对稀疏信号进行相位检索
- DOI:
10.1109/icassp.2012.6288658 - 发表时间:
2012 - 期刊:
- 影响因子:0
- 作者:
K. Jaganathan;Samet Oymak;B. Hassibi - 通讯作者:
B. Hassibi
The proportional mean decomposition: A bridge between the Gaussian and bernoulli ensembles
比例均值分解:高斯系综和伯努利系综之间的桥梁
- DOI:
- 发表时间:
2015 - 期刊:
- 影响因子:0
- 作者:
Samet Oymak;B. Hassibi - 通讯作者:
B. Hassibi
Stochastic Gradient Descent Learns State Equations with Nonlinear Activations
- DOI:
- 发表时间:
2018-09 - 期刊:
- 影响因子:0
- 作者:
Samet Oymak - 通讯作者:
Samet Oymak
Samet Oymak的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Samet Oymak', 18)}}的其他基金
CAREER: Foundations of Resource Efficient Machine Learning
职业:资源高效机器学习的基础
- 批准号:
2046816 - 财政年份:2021
- 资助金额:
$ 40万 - 项目类别:
Continuing Grant
CPS: Medium: Collaborative Research: Data-Driven Modeling and Preview-Based Control for Cyber-Physical System Safety
CPS:中:协作研究:数据驱动的建模和基于预览的网络物理系统安全控制
- 批准号:
1932254 - 财政年份:2020
- 资助金额:
$ 40万 - 项目类别:
Standard Grant
相似国自然基金
支持二维毫米波波束扫描的微波/毫米波高集成度天线研究
- 批准号:62371263
- 批准年份:2023
- 资助金额:52 万元
- 项目类别:面上项目
腙的Heck/脱氮气重排串联反应研究
- 批准号:22301211
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
水系锌离子电池协同性能调控及枝晶抑制机理研究
- 批准号:52364038
- 批准年份:2023
- 资助金额:33 万元
- 项目类别:地区科学基金项目
基于人类血清素神经元报告系统研究TSPYL1突变对婴儿猝死综合征的致病作用及机制
- 批准号:82371176
- 批准年份:2023
- 资助金额:49 万元
- 项目类别:面上项目
FOXO3 m6A甲基化修饰诱导滋养细胞衰老效应在补肾法治疗自然流产中的机制研究
- 批准号:82305286
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
相似海外基金
Collaborative Research: CIF: Medium: Snapshot Computational Imaging with Metaoptics
合作研究:CIF:Medium:Metaoptics 快照计算成像
- 批准号:
2403122 - 财政年份:2024
- 资助金额:
$ 40万 - 项目类别:
Standard Grant
Collaborative Research: CIF-Medium: Privacy-preserving Machine Learning on Graphs
合作研究:CIF-Medium:图上的隐私保护机器学习
- 批准号:
2402815 - 财政年份:2024
- 资助金额:
$ 40万 - 项目类别:
Standard Grant
Collaborative Research: CIF: Small: Mathematical and Algorithmic Foundations of Multi-Task Learning
协作研究:CIF:小型:多任务学习的数学和算法基础
- 批准号:
2343599 - 财政年份:2024
- 资助金额:
$ 40万 - 项目类别:
Standard Grant
Collaborative Research: CIF: Small: Mathematical and Algorithmic Foundations of Multi-Task Learning
协作研究:CIF:小型:多任务学习的数学和算法基础
- 批准号:
2343600 - 财政年份:2024
- 资助金额:
$ 40万 - 项目类别:
Standard Grant
Collaborative Research:CIF:Small:Acoustic-Optic Vision - Combining Ultrasonic Sonars with Visible Sensors for Robust Machine Perception
合作研究:CIF:Small:声光视觉 - 将超声波声纳与可见传感器相结合,实现强大的机器感知
- 批准号:
2326905 - 财政年份:2024
- 资助金额:
$ 40万 - 项目类别:
Standard Grant