群強化学習法の開発

小组强化学习方法的发展

基本信息

  • 批准号:
    19650031
  • 负责人:
  • 金额:
    $ 1.15万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Exploratory Research
  • 财政年份:
    2007
  • 资助国家:
    日本
  • 起止时间:
    2007 至 2008
  • 项目状态:
    已结题

项目摘要

通常の強化学習では一つのエージェントのみを用いて学習を行うので複雑な問題では学習に時間がかかりすぎるという欠点がある。したがって、強化学習の実用化に向けて学習を高速に行う新しい方法を開発することが必要不可欠である。本研究では、短時間で学習を行うために複数のエージェントを用意し、各エージェントが通常の強化学習法で学習を行うとともに、エージェント間の情報交換により他のエージェントの学習成果を参照して学習を行う群強化学習法を提案した。本年度は、鳥の群れ行動にヒントを得た最適化手法であるParticle Swarm Optimizationを用いた群強化学習法におけるエージェント間の情報交換方法を提案した。また、各エージェントが行う個別学習法として、SarsaやActor-Criticを用いた方法を提案した。また、より複雑な問題に対する群強化学習法の有効性を検証するために、倒立振子制御問題、サッカーゲーム問題、マルチエージェント環境の問題に群強化学習法を適用し、これらの問題に対しても短時間に良い方策を獲得できることを確認した。さらに、蟻の群れ行動にヒントを得た最適化手法であるアントコロニー最適化法を用いた群強化学習法を提案した。この群強化学習法では他のエージェントの学習成果を行動選択に利用する新しい枠組みを用いている。以上の成果より、従来の1エージェント強化学習法より短時間に良い方策を獲得できる群強化学習法を開発することができた。
普通强化学习仅使用一个代理进行学习,因此它的缺点是对于复杂问题需要花费太多时间来学习。因此,为了将强化学习投入实际应用,有必要开发新的高速学习方法。在本研究中,我们准备了多个智能体在短时间内进行学习,每个智能体使用正常的强化学习方法进行学习,并通过智能体之间交换信息来参考其他智能体的学习结果进行学习,我们提出了一种群体强化学习方法。执行的。今年,我们提出了一种使用粒子群优化在群体强化学习中的代理之间交换信息的方法,这是一种受鸟类聚集行为启发的优化方法。我们还提出了使用 Sarsa 和 Actor-Critic 作为每个代理执行的单独学习方法的方法。此外,为了验证群体强化学习方法对于更复杂问题的有效性,我们将群体强化学习方法应用到倒立摆控制问题、足球比赛问题和多智能体环境问题上,证实了这一点。好的策略可以在短时间内获得。此外,我们提出了一种使用蚁群优化的群体强化学习方法,这是一种受蚂蚁集群行为启发的优化方法。这种群体强化学习方法采用了一种新的框架,利用其他智能体的学习结果来选择动作。基于上述结果,我们能够开发出一种群体强化学习方法,与传统的单智能体强化学习方法相比,它可以在更短的时间内获得更好的策略。

项目成果

期刊论文数量(14)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

飯間 等其他文献

An Analysis of Paired Collaborative Learning by Using the Collecting System of Conversation
利用对话收集系统的结对协作学习分析
寿命を設定した自己最良値を用いたParticle Swarm Optimization に基づく群強化学習法
基于生命周期个人最佳值的粒子群优化的群体强化学习方法
  • DOI:
  • 发表时间:
    2010
  • 期刊:
  • 影响因子:
    0
  • 作者:
    小出明弘;斉藤和巳;風間一洋;鳥海不二夫;大田仁克;飯間 等
  • 通讯作者:
    飯間 等
協同学習における学習者のペア構成問題に対する遺伝アルゴリズムによる解法
基于遗传算法的协作学习中学习者结对问题的解决方案
  • DOI:
  • 发表时间:
    2007
  • 期刊:
  • 影响因子:
    0
  • 作者:
    飯間 等;新池 一弘
  • 通讯作者:
    新池 一弘
Evaluation of a System Utilizing User Interaction to Track Interesting News Events
利用用户交互跟踪有趣新闻事件的系统评估
Swarm Reinforcement Learning Methods for Problems with Continuous State-action Space
连续状态-动作空间问题的群强化学习方法

飯間 等的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('飯間 等', 18)}}的其他基金

汎化性能を高めた深層強化学習に基づく組合せ最適化法
提高泛化性能的基于深度强化学习的组合优化方法
  • 批准号:
    23K11263
  • 财政年份:
    2023
  • 资助金额:
    $ 1.15万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
解の類似度を考慮した生産再スケジューリング問題に対する遺伝アルゴリズムの開発
考虑解相似性的生产调度问题遗传算法的开发
  • 批准号:
    15760292
  • 财政年份:
    2003
  • 资助金额:
    $ 1.15万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)

相似国自然基金

基于深度学习和粒子群优化算法的疲劳驾驶行为识别研究
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
区间高维多目标优化问题的粒子群求解方法及应用
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
基于元启发式多目标粒子群优化的集成智能呼吸信号预测算法研究
  • 批准号:
  • 批准年份:
    2021
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
大规模动态环境下基于知识迁移的协同粒子群优化算法研究
  • 批准号:
  • 批准年份:
    2021
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
面向超多目标优化的粒子群算法研究
  • 批准号:
    62006058
  • 批准年份:
    2020
  • 资助金额:
    24 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

Evolving Self-Adaptive Particle Swarm Optimization Techniques using Genetic Programming
使用遗传编程进化自适应粒子群优化技术
  • 批准号:
    460647-2014
  • 财政年份:
    2017
  • 资助金额:
    $ 1.15万
  • 项目类别:
    Postgraduate Scholarships - Doctoral
Proposal of Easy and Advanced Nonlinear Analysis method by Particle Swarm Optimization
通过粒子群优化提出简单和高级的非线性分析方法
  • 批准号:
    16K16124
  • 财政年份:
    2016
  • 资助金额:
    $ 1.15万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
Cooperative two-level nonlinear programming through particle swarm optimization and its fuzzy stochastic extensions
通过粒子群优化及其模糊随机扩展的协同两级非线性规划
  • 批准号:
    16K01244
  • 财政年份:
    2016
  • 资助金额:
    $ 1.15万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Evolving Self-Adaptive Particle Swarm Optimization Techniques using Genetic Programming
使用遗传编程进化自适应粒子群优化技术
  • 批准号:
    460647-2014
  • 财政年份:
    2016
  • 资助金额:
    $ 1.15万
  • 项目类别:
    Postgraduate Scholarships - Doctoral
Intelligent Control System Design based on Quantum Particle Swarm Optimization with NUC High-Density Beowulf Cluster
基于NUC高密度贝奥武夫集群的量子粒子群优化智能控制系统设计
  • 批准号:
    16K06197
  • 财政年份:
    2016
  • 资助金额:
    $ 1.15万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了