Multi-agent Self-improving of Large Language Models (LLMs)

大型语言模型 (LLM) 的多智能体自我改进

基本信息

  • 批准号:
    2903811
  • 负责人:
  • 金额:
    --
  • 依托单位:
  • 依托单位国家:
    英国
  • 项目类别:
    Studentship
  • 财政年份:
    2024
  • 资助国家:
    英国
  • 起止时间:
    2024 至 无数据
  • 项目状态:
    未结题

项目摘要

In the rapidly evolving field of artificial intelligence (AI), Large Language Models (LLMs) stand out as powerful tools capable of understanding human instructions and generating helpful answers. However, the development of these models faces significant challenges. In general, improving LLMs' generation ability and aligning their generation with human values rely heavily on vast amounts of human feedback annotations. This approach, while effective, is difficult to scale and may inherently limit the models' potential. As an alternative, some researchers turn to train LLMs using self-generated data, i.e., self-learning. Self-learning also presents a set of problems, including the risk of reinforcing existing biases or inaccuracies without external correction. This dilemma sets the stage for a novel approach to advancing LLM capabilities without substantial demand for human resources or the pitfalls of self-learning. This project tries to propose an innovative self-improving framework through a multi-agent system that enables these models to learn and enhance themselves by leveraging feedback from other peer models. By integrating the strengths and diversity of various LLMs, the system is expected to refine its ability to follow instructions, align with human values, and perform across a broad spectrum of downstream tasks with minimal human supervision. The vision is to establish a scalable and efficient method for continuous improvement through inter-model interactions, sidestepping the constraints of human feedback and the limitations of self-generated data training. At the heart of this self-improving system are two pivotal questions: 1. Can the diversity of LLMs enrich the quality of self-generated training data? 2. Can collaboration among different LLMs reduce the necessity for human annotations while ensuring ongoing enhancement? Addressing these two open queries could open the door to a new paradigm in AI training/alignment methodologies. This exploration aims at fostering more efficient AI systems development with reduced reliance on human oversight and intervention. This project, therefore, is also an open-ended exploration into future AI training strategies. It seeks to contribute to the AI community by moving away from heavily human-supervision-dependent models to more data-efficient and self-improving LLM systems.
在快速发展的人工智能 (AI) 领域,大型语言模型 (LLM) 作为能够理解人类指令并生成有用答案的强大工具而脱颖而出。然而,这些模型的开发面临着重大挑战。一般来说,提高法学硕士的生成能力并使他们的生成与人类价值观保持一致在很大程度上依赖于大量的人类反馈注释。这种方法虽然有效,但难以扩展,并且可能固有地限制模型的潜力。作为替代方案,一些研究人员转而使用自我生成的数据(即自学习)来培训法学硕士。自学还带来了一系列问题,包括在没有外部纠正的情况下强化现有偏见或不准确性的风险。这种困境为一种提高法学硕士能力的新方法奠定了基础,而无需大量的人力资源需求或自学的陷阱。该项目试图通过多代理系统提出一个创新的自我改进框架,使这些模型能够通过利用其他同行模型的反馈来学习和增强自身。通过整合各种法学硕士的优势和多样性,该系统预计将提高其遵循指令、符合人类价值观以及在最少的人工监督下执行广泛的下游任务的能力。我们的愿景是建立一种可扩展且高效的方法,通过模型间交互进行持续改进,避开人类反馈的约束和自我生成数据训练的局限性。这个自我改进系统的核心是两个关键问题: 1. 法学硕士的多样性能否丰富自我生成的培训数据的质量? 2. 不同法学硕士之间的合作能否减少人工注释的必要性,同时确保持续增强?解决这两个开放性问题可以为人工智能训练/对齐方法的新范式打开大门。这一探索旨在促进更高效的人工智能系统开发,减少对人类监督和干预的依赖。因此,这个项目也是对未来人工智能训练策略的开放式探索。它寻求通过从严重依赖人类监督的模型转向数据效率更高和自我改进的法学硕士系统来为人工智能社区做出贡献。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

其他文献

Acute sleep deprivation increases inflammation and aggravates heart failure after myocardial infarction.
Ionic Liquids-Polymer of Intrinsic Microporosity (PIMs) Blend Membranes for CO(2) Separation.
  • DOI:
    10.3390/membranes12121262
  • 发表时间:
    2022-12-13
  • 期刊:
  • 影响因子:
    4.2
  • 作者:
  • 通讯作者:

的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('', 18)}}的其他基金

An implantable biosensor microsystem for real-time measurement of circulating biomarkers
用于实时测量循环生物标志物的植入式生物传感器微系统
  • 批准号:
    2901954
  • 财政年份:
    2028
  • 资助金额:
    --
  • 项目类别:
    Studentship
Exploiting the polysaccharide breakdown capacity of the human gut microbiome to develop environmentally sustainable dishwashing solutions
利用人类肠道微生物群的多糖分解能力来开发环境可持续的洗碗解决方案
  • 批准号:
    2896097
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
A Robot that Swims Through Granular Materials
可以在颗粒材料中游动的机器人
  • 批准号:
    2780268
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
Likelihood and impact of severe space weather events on the resilience of nuclear power and safeguards monitoring.
严重空间天气事件对核电和保障监督的恢复力的可能性和影响。
  • 批准号:
    2908918
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
Proton, alpha and gamma irradiation assisted stress corrosion cracking: understanding the fuel-stainless steel interface
质子、α 和 γ 辐照辅助应力腐蚀开裂:了解燃料-不锈钢界面
  • 批准号:
    2908693
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
Field Assisted Sintering of Nuclear Fuel Simulants
核燃料模拟物的现场辅助烧结
  • 批准号:
    2908917
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
Assessment of new fatigue capable titanium alloys for aerospace applications
评估用于航空航天应用的新型抗疲劳钛合金
  • 批准号:
    2879438
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
CDT year 1 so TBC in Oct 2024
CDT 第 1 年,预计 2024 年 10 月
  • 批准号:
    2879865
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
Developing a 3D printed skin model using a Dextran - Collagen hydrogel to analyse the cellular and epigenetic effects of interleukin-17 inhibitors in
使用右旋糖酐-胶原蛋白水凝胶开发 3D 打印皮肤模型,以分析白细胞介素 17 抑制剂的细胞和表观遗传效应
  • 批准号:
    2890513
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
Understanding the interplay between the gut microbiome, behavior and urbanisation in wild birds
了解野生鸟类肠道微生物组、行为和城市化之间的相互作用
  • 批准号:
    2876993
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship

相似国自然基金

基于操控员情境意识状态可解释Agent的智能交互触发机制研究
  • 批准号:
    62376220
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目
面向联排联调的城市复合洪涝灾害风险Agent建模与智能决策
  • 批准号:
    42371092
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目
基于步行测度的代理人基建模在街区设计中的核心机制与应用研究
  • 批准号:
    52208039
  • 批准年份:
    2022
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
一个时间不一致平均场博弈模型:非指数贴现下的连续时间异质性代理人模型
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
实施科学驱动Agent仿真构建脑卒中患者心理与行为干预规程——基于阶梯式楔形随机对照试验
  • 批准号:
    82260281
  • 批准年份:
    2022
  • 资助金额:
    33 万元
  • 项目类别:
    地区科学基金项目

相似海外基金

Self-adaptive and Cooperative Multi-agent Reinforcement Learning-based Network Traffic Control
基于强化学习的自适应协作多智能体网络流量控制
  • 批准号:
    23K19982
  • 财政年份:
    2023
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for Research Activity Start-up
Targeting therapeutic resistance in glioblastoma
靶向胶质母细胞瘤的治疗耐药性
  • 批准号:
    10588313
  • 财政年份:
    2023
  • 资助金额:
    --
  • 项目类别:
A phase II multi-center trial evaluating dual targeting of the PI3K/AKT and NOS pathways for treating metaplastic breast cancer (MpBC)
一项评估 PI3K/AKT 和 NOS 通路双重靶向治疗化生性乳腺癌 (MpBC) 的 II 期多中心试验
  • 批准号:
    10642669
  • 财政年份:
    2022
  • 资助金额:
    --
  • 项目类别:
Pre-IND Development of Polymeric Micelles with Dual Drug Payloads for HCC Therapy
用于 HCC 治疗的具有双药物有效负载的聚合物胶束的 IND 前开发
  • 批准号:
    10669704
  • 财政年份:
    2022
  • 资助金额:
    --
  • 项目类别:
Self-Organising Multi-Agent Systems
自组织多代理系统
  • 批准号:
    2767542
  • 财政年份:
    2022
  • 资助金额:
    --
  • 项目类别:
    Studentship
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了