世界モデルの獲得と多様な戦略の探索による深層強化学習の汎用性向上

通过获取世界模型和探索多样化策略来提高深度强化学习的多功能性

基本信息

  • 批准号:
    21H03570
  • 负责人:
  • 金额:
    $ 4.16万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
  • 财政年份:
    2021
  • 资助国家:
    日本
  • 起止时间:
    2021-04-01 至 2024-03-31
  • 项目状态:
    已结题

项目摘要

本応募課題では、思考ゲームを題材に、深層強化学習の汎用性と効率向上の研究を行う。 囲碁、将棋、チェスなどの思考ゲームは AI の到達度を測る試金石として、また AlphaGo が登場して以降は深層強化学習の題材としても注目を集めている。 熟慮して判断の質を高めるためには、エージェントが確率的な推論や思考実験をできるような世界のモデルが必要となる。 推論に適した世界のモデルの学習のために、抽象化と多様性を技術的な核に総合的な学習フレームワークを構築する。 抽象的な表現で世界を学ぶことで汎用性と学習効率を高め、環境とエージェントの多様性に適切な抽象度を学ぶ。 思考ゲーム、特に囲碁、将棋、チェスなどの二人完全情報ゲームでは、ここ数年の AlphaGo から AlphaZero までの研究で、既存手法で作成された AI プレイヤや人間の強さを越えて、大きな技術の進歩があった。 本応募課題ではそれらの成果を踏まえて、思考ゲームを題材に、深層強化学習の汎用性と効率向上の研究を行っている。 全体の計画したなかで世界を抽象的に理解するモデルに関して、エントロピー最大化強化学習を敵対的他者がいる環境に適用する技術と、経験を積むべき優先度に関する新たなモデルに関しては、これまでに十分な成果が得られている。
该应用程序将在思考游戏的主题上进行,以作为对深度强化学习的多功能性和效率的研究。诸如GO,Shogi和国际象棋之类的思考游戏引起了人们的关注,以衡量AI成就程度,自从引入Alphago以来,它们也引起了人们的关注,作为深入增强学习的主题。为了提高判断质量,我们需要一个世界模型,代理可以进行随机推理和思考实验。为了学习适合推理的世界模型,我们将在技术核心上建立一个具有抽象和多样性的全面学习框架。通过通过抽象表达来学习世界,您可以提高多功能性和学习效率,并学习适合环境和代理多样性的抽象水平。在过去的几年中,思维游戏,特别是在GO,Shogi和国际象棋等两人信息游戏中,从Alphago到Alphazero的研究取得了重大的技术进步,超出了使用现有方法创造的AI播放器和人类的实力。该应用程序基于这些结果,并且基于思维游戏的深入增强学习的多功能性和效率进行了研究。关于在整体计划中抽象地了解世界的模型,到目前为止,已经取得了足够的成果,以使技术将熵最大的增强学习应用于具有敌意他人的环境以及获得经验的新型优先级模型。

项目成果

期刊论文数量(9)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Residual network for deep reinforcement learning with attention mechanism
具有注意力机制的深度强化学习残差网络
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Tazoe;H.;Obata;H.;Hara;T.;Inoue;M.;Tanaka;T.;Nishioka;J.;H. Zhu and T. Kaneko
  • 通讯作者:
    H. Zhu and T. Kaneko
Local coordination in multi-agent reinforcement learning
多智能体强化学习中的局部协调
Hierarchical Advantage for Reinforcement Learning in Parameterized Action Space
  • DOI:
    10.1109/cog52621.2021.9619068
  • 发表时间:
    2021-08
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Zhejie Hu;Tomoyuki Kaneko
  • 通讯作者:
    Zhejie Hu;Tomoyuki Kaneko
2048 への方策勾配法の適用
政策梯度法在2048年的应用
3x3盤面の2048の完全解析と強化学習の研究
2048 3x3棋盘完整分析及强化学习研究
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Inoue;M.;Shirotani;Y.;Morokado;T.;Hanaki;S.;Kameyama;H.;Kofuji;H.;Okino;A.;Yoshida;M.;Miki;S.;Shikata;T.;Honda;N.;Takikawa;T.;Morita;M.;Nagao;S.;荻島 創一;山下 金子 中屋敷
  • 通讯作者:
    山下 金子 中屋敷
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

金子 知適其他文献

将棋の棋譜の指し手から意図を読みとる
从将棋记录中的棋步意图解读
  • DOI:
  • 发表时间:
    2015
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Haruya Shiba;Kousei Ueta;Yoshino Ohishi;Takahiko Mendori;Yusuke Nishiuchi;Masanobu Yoshida;Hironobu Satoh;Takumi Yamaguchi;芝治也,上田晃正,竹谷篤也,山口巧,永原順子,西内悠祐,吉田正伸,佐藤公信,妻鳥貴彦;T. Imagawa and T. Kaneko;金子 知適
  • 通讯作者:
    金子 知適
GVG-AI のための Monte Carlo Tree Search の改善に関する研究
GVG-AI 改进蒙特卡罗树搜索的研究
Hybrid Reward Architecture を用いたリアルタイムな意思決定の改善
通过混合奖励架构改善实时决策
  • DOI:
  • 发表时间:
    2017
  • 期刊:
  • 影响因子:
    0
  • 作者:
    藤村 悠太朗;金子 知適
  • 通讯作者:
    金子 知適
将棋における棋風を学習するための棋譜分析の取り組み
努力分析比赛记录以学习将棋风格
  • DOI:
  • 发表时间:
    2015
  • 期刊:
  • 影响因子:
    0
  • 作者:
    大森 翔太朗;金子 知適
  • 通讯作者:
    金子 知適
将棋における勾配ブースティング木を用いた評価関数
将棋中使用梯度提升树的评估函数
  • DOI:
  • 发表时间:
    2017
  • 期刊:
  • 影响因子:
    0
  • 作者:
    渡辺 敬介;金子 知適
  • 通讯作者:
    金子 知適

金子 知適的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('金子 知適', 18)}}的其他基金

不完全情報かつ多人数環境で合理的均衡戦略を求める深層強化学習
深度强化学习在不完全信息的多人环境中寻找理性均衡策略
  • 批准号:
    21K19816
  • 财政年份:
    2021
  • 资助金额:
    $ 4.16万
  • 项目类别:
    Grant-in-Aid for Challenging Research (Exploratory)

相似国自然基金

海洋缺氧对持久性有机污染物入海后降解行为的影响
  • 批准号:
    42377396
  • 批准年份:
    2023
  • 资助金额:
    49 万元
  • 项目类别:
    面上项目
支持二维毫米波波束扫描的微波/毫米波高集成度天线研究
  • 批准号:
    62371263
  • 批准年份:
    2023
  • 资助金额:
    52 万元
  • 项目类别:
    面上项目
腙的Heck/脱氮气重排串联反应研究
  • 批准号:
    22301211
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
水系锌离子电池协同性能调控及枝晶抑制机理研究
  • 批准号:
    52364038
  • 批准年份:
    2023
  • 资助金额:
    33 万元
  • 项目类别:
    地区科学基金项目
基于人类血清素神经元报告系统研究TSPYL1突变对婴儿猝死综合征的致病作用及机制
  • 批准号:
    82371176
  • 批准年份:
    2023
  • 资助金额:
    49 万元
  • 项目类别:
    面上项目

相似海外基金

不完全情報かつ多人数環境で合理的均衡戦略を求める深層強化学習
深度强化学习在不完全信息的多人环境中寻找理性均衡策略
  • 批准号:
    21K19816
  • 财政年份:
    2021
  • 资助金额:
    $ 4.16万
  • 项目类别:
    Grant-in-Aid for Challenging Research (Exploratory)
言語モデルと数理モデルを用いた思考ゲームの解析に関する研究
利用语言模型和数学模型分析思维游戏的研究
  • 批准号:
    20K12122
  • 财政年份:
    2020
  • 资助金额:
    $ 4.16万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
deep reinforcement learning for imperfect and multi-player environments
针对不完美和多人环境的深度强化学习
  • 批准号:
    18K19832
  • 财政年份:
    2018
  • 资助金额:
    $ 4.16万
  • 项目类别:
    Grant-in-Aid for Challenging Research (Exploratory)
How to Coach Human Players using Computer Go Program
如何使用计算机围棋程序指导人类棋手
  • 批准号:
    17K00506
  • 财政年份:
    2017
  • 资助金额:
    $ 4.16万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Research on Advice in Game AI
游戏人工智能建议研究
  • 批准号:
    17K12807
  • 财政年份:
    2017
  • 资助金额:
    $ 4.16万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了