未知の協調・環境を想定したマルチエージェント強化学習の知識転移

假设未知合作/环境的多智能体强化学习的知识转移

基本信息

  • 批准号:
    21K17807
  • 负责人:
  • 金额:
    $ 3万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
  • 财政年份:
    2021
  • 资助国家:
    日本
  • 起止时间:
    2021-04-01 至 2024-03-31
  • 项目状态:
    已结题

项目摘要

本年度は,マルチエージェント強化学習の未知の協調,未知の環境への適応に向けた,(1)学習結果のモジュール化,(2)知識モジュールに基づく未知の協調行動学習法の提案,(3)未知環境を想定した知識の再構成法の提案の内,主にテーマ(2)および(3)に向けた調査を実施した.具体的には,知識モジュールの抽出として,深層強化学習A3Cをベースとして,獲得報酬の変化をパラメトリックな分布を構成し,報酬を獲得した目的ごとの分布を比較することで他エージェントの目的を抽出し,それぞれの目的に合わせて協調行動を学習する手法を提案した.また,ロボットナビゲーションのシミュレーション実験により手法の有効性を検証した.本提案手法は,未知の環境や不測の事態でエージェントの取るべき協調行動が不明の時に,学習結果から知識として切り出した互いの目的を組み合わせて適切な目的を達成する協調行動が学習可能である点で画期的成果となった.また,知識モジュールの組み合わせに関して,エージェントの固有の状態を抽出し連結することで新たな知識を生成し,その知識を学習により環境に対して最適にする手法を提案し,前述のナビゲーション実験によりその有効性を示した.これにより,知識モジュールの連結方法を変えることで環境に合わせた知識の再構成が可能であることが確認できた.本成果は,知識モジュールを抽出した際にそれを組み合わせることによる効果を実証できた点において重要である.なお,本成果は国際会議ICAART 2023および国内学会人工知能学会全国大会等において発表している.
今年,我们进行了研究,主要关注(2)(1)学习结果模块化的主题(2)和(3),(2)提出了一种基于知识模块的未知协作行为学习方法,(3)提出了一种基于多代理强化学习中未知环境的知识的方法。具体而言,我们提出了一种基于深度强化学习A3C,构建奖励变化的参数分布,比较每个目标的分布,以赢得奖励,提取其他代理商的目标并根据每个目标学习合作行为的每个目标的分布。此外,通过机器人导航的仿真实验验证了该方法的有效性。这项提出的方法是一项开创性的成就,因为当代理商应采取的协调行动在未知的环境或意外情况下未知时,可以学习合作行动,将彼此的目标与学习结果相结合以实现适当的目的。此外,关于知识模块的组合,我们提出了一种方法,其中通过提取和联系唯一的代理状态并通过学习来优化环境知识来产生新知识,并通过上述导航实验证明了其有效性。这证实了通过更改链接知识模块的方法,可以根据环境重建知识。该结果很重要,因为可以证明在提取并组合知识模块时结合知识模块的效果。结果已在国际伊卡特2023年国际会议和人工智能学会全国会议上提出。

项目成果

期刊论文数量(2)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
マルチエージェント強化学習の報酬設計による知識の蒸留と転移に関する一考察
多智能体强化学习中通过奖励设计进行知识蒸馏和迁移的研究
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    上野 史;Fumito Uwano;Fumito Uwano;Fumito Uwano;上野 史;上野 史
  • 通讯作者:
    上野 史
Queensland University of Technology(オーストラリア)
昆士兰科技大学(澳大利亚)
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
獲得報酬の分布に基づくエージェント間の暗黙的協調行動学習とその効果の検証
基于获得的奖励分配及其效果验证的代理之间的隐式合作行为学习
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    上野 史;Fumito Uwano;Fumito Uwano;Fumito Uwano;上野 史;上野 史;上野 史
  • 通讯作者:
    上野 史
Design of Human-Agent-Group Interaction for Correct Opinion Sharing on Social Media
社交媒体上正确观点分享的人-智能体-群体交互设计
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    上野 史;Fumito Uwano;Fumito Uwano;Fumito Uwano
  • 通讯作者:
    Fumito Uwano
マルチエージェント強化学習における知識とその境界
多智能体强化学习中的知识及其边界
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Shuhei Aoyama;Takuma Miwa;and Takanobu Otsuka,;上野 史;上野 史
  • 通讯作者:
    上野 史
共 10 条
  • 1
  • 2
前往

上野 史其他文献

SLIM Spacecraft Location Estimation by Crater Matching Based on Similar Triangles and Its Improvement
基于相似三角形的弹坑匹配的SLIM航天器位置估计及其改进
共 1 条
  • 1
前往

上野 史的其他基金

多目的進化計算を用いたエージェント群の戦略的意思決定を実現する強化学習
使用多目标进化计算实现一组智能体的战略决策的强化学习
  • 批准号:
    24K03001
    24K03001
  • 财政年份:
    2024
  • 资助金额:
    $ 3万
    $ 3万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
    Grant-in-Aid for Scientific Research (B)
通信無し強化学習エージェント群による動的環境への追従
使用强化学习代理跟踪动态环境,无需通信
  • 批准号:
    17J08724
    17J08724
  • 财政年份:
    2017
  • 资助金额:
    $ 3万
    $ 3万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
    Grant-in-Aid for JSPS Fellows

相似海外基金

マルチエージェントシステムの最適化・制御・ゲームのための汎用的通信コスト削減法
一种用于多智能体系统优化、控制和博弈的通用通信成本降低方法
  • 批准号:
    24KJ1502
    24KJ1502
  • 财政年份:
    2024
  • 资助金额:
    $ 3万
    $ 3万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
    Grant-in-Aid for JSPS Fellows
異種マルチエージェントシステム制御における拡散的外部刺激の理論体系の確立と実検証
扩散外部刺激控制异构多智能体系统理论体系的建立与实践验证
  • 批准号:
    23K20947
    23K20947
  • 财政年份:
    2024
  • 资助金额:
    $ 3万
    $ 3万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
    Grant-in-Aid for Scientific Research (B)
人間とロボットのマルチエージェントシステムにおける共通認識生成アルゴリズムの構築
人和机器人多智能体系统通用识别生成算法的构建
  • 批准号:
    24K20876
    24K20876
  • 财政年份:
    2024
  • 资助金额:
    $ 3万
    $ 3万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
    Grant-in-Aid for Early-Career Scientists
非協調マルチエージェントシステムと動的インセンティブデザイン
非合作多主体系统与动态激励设计
  • 批准号:
    24K07535
    24K07535
  • 财政年份:
    2024
  • 资助金额:
    $ 3万
    $ 3万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
    Grant-in-Aid for Scientific Research (C)
Practice of human-centered urban space design based on interactive simulation
基于交互模拟的以人为本的城市空间设计实践
  • 批准号:
    23KK0186
    23KK0186
  • 财政年份:
    2023
  • 资助金额:
    $ 3万
    $ 3万
  • 项目类别:
    Fund for the Promotion of Joint International Research (International Collaborative Research)
    Fund for the Promotion of Joint International Research (International Collaborative Research)