Collaborative Research: CIF:Medium:Theoretical Foundations of Compositional Learning in Transformer Models
合作研究:CIF:Medium:Transformer 模型中组合学习的理论基础
基本信息
- 批准号:2403074
- 负责人:
- 金额:$ 50万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Standard Grant
- 财政年份:2024
- 资助国家:美国
- 起止时间:2024-07-01 至 2028-06-30
- 项目状态:未结题
- 来源:
- 关键词:
项目摘要
Large Language Models (LLMs) based on transformer architectures, such as GPT-4, Llama 2, and Claude 3, have demonstrated remarkable emergent capabilities in compositional reasoning, allowing them to tackle complex tasks by decomposing them into simpler intermediate steps. Examples to these tasks include text and code generation, basic arithmetic and problem solving, and answering complex questions. Despite these empirical advances, the underlying mechanics of these capabilities remain largely unexplored. This collaborative research project aims to investigate the theoretical foundations of compositional learning in transformer models, focusing on three key areas: model expressivity, statistical learning theory, and optimization, aiming to develop novel learning guarantees, algorithms, architectures, and design principles that significantly advance the development of more capable and interpretable Artificial Intelligence (AI) and LLM systems. The research findings will be incorporated into educational curricula, fostering a diverse community around transformers, compositional learning, and their applications. The project will also engage the broader public through workshops and outreach activities, promoting responsible AI practices and AI education for undergraduate and K-12 students.The first thrust will explore the expressive capacity of transformers augmented with loops, memory, and external tools, which are essential for compositional reasoning. The second thrust will examine the statistical properties of autoregressive training using compositional data to understand its limits, benefits, and ability to generalize to novel problem instances. This is expected to lead to new theories of compositional learning that will highlight the role of skill acquisition and composition. The third thrust will investigate the optimization principles of compositional learning with transformers. This research will shed light on the optimization landscape and identify techniques for more efficient training of transformers through compositional techniques.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
基于 Transformer 架构的大型语言模型 (LLM),例如 GPT-4、Llama 2 和 Claude 3,在组合推理方面表现出了卓越的涌现能力,使它们能够通过将复杂任务分解为更简单的中间步骤来处理复杂的任务。这些任务的示例包括文本和代码生成、基本算术和问题解决以及回答复杂问题。尽管取得了这些实证进展,但这些能力的基本机制在很大程度上仍未得到探索。该合作研究项目旨在研究 Transformer 模型中组合学习的理论基础,重点关注三个关键领域:模型表达性、统计学习理论和优化,旨在开发新颖的学习保证、算法、架构和设计原则,从而显着推进开发能力更强、可解释的人工智能(AI)和法学硕士系统。研究结果将被纳入教育课程,围绕变压器、组合学习及其应用培育一个多元化的社区。该项目还将通过研讨会和外展活动吸引更广泛的公众,促进本科生和 K-12 学生负责任的人工智能实践和人工智能教育。第一个重点将探索通过循环、内存和外部工具增强的变压器的表达能力,对于组合推理至关重要。第二个重点将使用组合数据检查自回归训练的统计特性,以了解其局限性、好处以及推广到新问题实例的能力。预计这将导致新的作曲学习理论,强调技能习得和作曲的作用。第三个重点将研究变压器组合学习的优化原理。这项研究将揭示优化前景,并确定通过组合技术更有效地训练变压器的技术。该奖项反映了 NSF 的法定使命,并通过使用基金会的智力价值和更广泛的影响审查标准进行评估,被认为值得支持。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Dimitrios Papailiopoulos其他文献
Dimitrios Papailiopoulos的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Dimitrios Papailiopoulos', 18)}}的其他基金
CAREER: Coding Theory for Robust Large-Scale Machine Learning
职业:鲁棒大规模机器学习的编码理论
- 批准号:
1844951 - 财政年份:2019
- 资助金额:
$ 50万 - 项目类别:
Continuing Grant
相似国自然基金
离子型稀土渗流-应力-化学耦合作用机理与溶浸开采优化研究
- 批准号:52364012
- 批准年份:2023
- 资助金额:32 万元
- 项目类别:地区科学基金项目
亲环蛋白调控作物与蚜虫互作分子机制的研究
- 批准号:32301770
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
基于金属-多酚网络衍生多相吸波体的界面调控及电磁响应机制研究
- 批准号:52302362
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
职场网络闲逛行为的作用结果及其反馈效应——基于行为者和观察者视角的整合研究
- 批准号:72302108
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
EIF6负调控Dicer活性促进EV71复制的分子机制研究
- 批准号:32300133
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
相似海外基金
Collaborative Research: CIF: Medium: Snapshot Computational Imaging with Metaoptics
合作研究:CIF:Medium:Metaoptics 快照计算成像
- 批准号:
2403122 - 财政年份:2024
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
Collaborative Research: CIF-Medium: Privacy-preserving Machine Learning on Graphs
合作研究:CIF-Medium:图上的隐私保护机器学习
- 批准号:
2402815 - 财政年份:2024
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
Collaborative Research: CIF: Small: Mathematical and Algorithmic Foundations of Multi-Task Learning
协作研究:CIF:小型:多任务学习的数学和算法基础
- 批准号:
2343599 - 财政年份:2024
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
Collaborative Research: CIF: Small: Mathematical and Algorithmic Foundations of Multi-Task Learning
协作研究:CIF:小型:多任务学习的数学和算法基础
- 批准号:
2343600 - 财政年份:2024
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
Collaborative Research:CIF:Small:Acoustic-Optic Vision - Combining Ultrasonic Sonars with Visible Sensors for Robust Machine Perception
合作研究:CIF:Small:声光视觉 - 将超声波声纳与可见传感器相结合,实现强大的机器感知
- 批准号:
2326905 - 财政年份:2024
- 资助金额:
$ 50万 - 项目类别:
Standard Grant