世界モデルの獲得と多様な戦略の探索による深層強化学習の汎用性向上

通过获取世界模型和探索多样化策略来提高深度强化学习的多功能性

基本信息

  • 批准号:
    21H03570
  • 负责人:
  • 金额:
    $ 4.16万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
  • 财政年份:
    2021
  • 资助国家:
    日本
  • 起止时间:
    2021-04-01 至 2024-03-31
  • 项目状态:
    已结题

项目摘要

本応募課題では、思考ゲームを題材に、深層強化学習の汎用性と効率向上の研究を行う。 囲碁、将棋、チェスなどの思考ゲームは AI の到達度を測る試金石として、また AlphaGo が登場して以降は深層強化学習の題材としても注目を集めている。 熟慮して判断の質を高めるためには、エージェントが確率的な推論や思考実験をできるような世界のモデルが必要となる。 推論に適した世界のモデルの学習のために、抽象化と多様性を技術的な核に総合的な学習フレームワークを構築する。 抽象的な表現で世界を学ぶことで汎用性と学習効率を高め、環境とエージェントの多様性に適切な抽象度を学ぶ。 思考ゲーム、特に囲碁、将棋、チェスなどの二人完全情報ゲームでは、ここ数年の AlphaGo から AlphaZero までの研究で、既存手法で作成された AI プレイヤや人間の強さを越えて、大きな技術の進歩があった。 本応募課題ではそれらの成果を踏まえて、思考ゲームを題材に、深層強化学習の汎用性と効率向上の研究を行っている。 全体の計画したなかで世界を抽象的に理解するモデルに関して、エントロピー最大化強化学習を敵対的他者がいる環境に適用する技術と、経験を積むべき優先度に関する新たなモデルに関しては、これまでに十分な成果が得られている。
在本次应用中,我们将以思维游戏为主题,开展提高深度强化学习的通用性和效率的研究。 围棋、将棋、国际象棋等思维游戏作为衡量人工智能水平的试金石而备受关注,自从AlphaGo问世以来,它们也作为深度强化学习的对象而受到关注。 为了通过深思熟虑提高决策质量,智能体需要一个世界模型,使他们能够进行概率推理和思想实验。 为了学习适合推理的世界模型,我们将构建一个以抽象性和多样性为技术核心的综合学习框架。 使用抽象表示来了解世界可以提高多功能性和学习效率,并针对环境和代理的多样性学习适当的抽象级别。 在思维游戏中,尤其是围棋、将棋、国际象棋等两人完美信息游戏中,从AlphaGo到AlphaZero这几年的研究表明,利用现有方法创造出的AI棋手,人类的实力是可以被超越和大幅超越的——规模技术改进已经取得进展。 基于这些结果,该项目正在以思维游戏为主题,开展提高深度强化学习的通用性和效率的研究。 关于在总体计划中抽象地理解世界的模型,将熵最大化强化学习应用于敌对环境的技术以及关于获得经验的优先级的新模型迄今为止已经获得了足够的成果。

项目成果

期刊论文数量(9)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Residual network for deep reinforcement learning with attention mechanism
具有注意力机制的深度强化学习残差网络
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Tazoe;H.;Obata;H.;Hara;T.;Inoue;M.;Tanaka;T.;Nishioka;J.;H. Zhu and T. Kaneko
  • 通讯作者:
    H. Zhu and T. Kaneko
Local coordination in multi-agent reinforcement learning
多智能体强化学习中的局部协调
Hierarchical Advantage for Reinforcement Learning in Parameterized Action Space
  • DOI:
    10.1109/cog52621.2021.9619068
  • 发表时间:
    2021-08
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Zhejie Hu;Tomoyuki Kaneko
  • 通讯作者:
    Zhejie Hu;Tomoyuki Kaneko
2048 への方策勾配法の適用
政策梯度法在2048年的应用
3x3盤面の2048の完全解析と強化学習の研究
2048 3x3棋盘完整分析及强化学习研究
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Inoue;M.;Shirotani;Y.;Morokado;T.;Hanaki;S.;Kameyama;H.;Kofuji;H.;Okino;A.;Yoshida;M.;Miki;S.;Shikata;T.;Honda;N.;Takikawa;T.;Morita;M.;Nagao;S.;荻島 創一;山下 金子 中屋敷
  • 通讯作者:
    山下 金子 中屋敷
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

金子 知適其他文献

将棋の棋譜の指し手から意図を読みとる
从将棋记录中的棋步意图解读
  • DOI:
  • 发表时间:
    2015
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Haruya Shiba;Kousei Ueta;Yoshino Ohishi;Takahiko Mendori;Yusuke Nishiuchi;Masanobu Yoshida;Hironobu Satoh;Takumi Yamaguchi;芝治也,上田晃正,竹谷篤也,山口巧,永原順子,西内悠祐,吉田正伸,佐藤公信,妻鳥貴彦;T. Imagawa and T. Kaneko;金子 知適
  • 通讯作者:
    金子 知適
Hybrid Reward Architecture を用いたリアルタイムな意思決定の改善
通过混合奖励架构改善实时决策
  • DOI:
  • 发表时间:
    2017
  • 期刊:
  • 影响因子:
    0
  • 作者:
    藤村 悠太朗;金子 知適
  • 通讯作者:
    金子 知適
GVG-AI のための Monte Carlo Tree Search の改善に関する研究
GVG-AI 改进蒙特卡罗树搜索的研究
将棋における棋風を学習するための棋譜分析の取り組み
努力分析比赛记录以学习将棋风格
  • DOI:
  • 发表时间:
    2015
  • 期刊:
  • 影响因子:
    0
  • 作者:
    大森 翔太朗;金子 知適
  • 通讯作者:
    金子 知適
将棋における勾配ブースティング木を用いた評価関数
将棋中使用梯度提升树的评估函数
  • DOI:
  • 发表时间:
    2017
  • 期刊:
  • 影响因子:
    0
  • 作者:
    渡辺 敬介;金子 知適
  • 通讯作者:
    金子 知適

金子 知適的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('金子 知適', 18)}}的其他基金

不完全情報かつ多人数環境で合理的均衡戦略を求める深層強化学習
深度强化学习在不完全信息的多人环境中寻找理性均衡策略
  • 批准号:
    21K19816
  • 财政年份:
    2021
  • 资助金额:
    $ 4.16万
  • 项目类别:
    Grant-in-Aid for Challenging Research (Exploratory)

相似国自然基金

离子型稀土渗流-应力-化学耦合作用机理与溶浸开采优化研究
  • 批准号:
    52364012
  • 批准年份:
    2023
  • 资助金额:
    32 万元
  • 项目类别:
    地区科学基金项目
亲环蛋白调控作物与蚜虫互作分子机制的研究
  • 批准号:
    32301770
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
基于金属-多酚网络衍生多相吸波体的界面调控及电磁响应机制研究
  • 批准号:
    52302362
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
LysR转录因子调控内生芽孢杆菌拮抗禾谷镰刀菌定殖小麦分子机制
  • 批准号:
    32372621
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目
TiC-TiB2颗粒喷射成形原位合成及其对M2高速工具钢共晶碳化物形成与演化的影响
  • 批准号:
    52361020
  • 批准年份:
    2023
  • 资助金额:
    32 万元
  • 项目类别:
    地区科学基金项目

相似海外基金

不完全情報かつ多人数環境で合理的均衡戦略を求める深層強化学習
深度强化学习在不完全信息的多人环境中寻找理性均衡策略
  • 批准号:
    21K19816
  • 财政年份:
    2021
  • 资助金额:
    $ 4.16万
  • 项目类别:
    Grant-in-Aid for Challenging Research (Exploratory)
言語モデルと数理モデルを用いた思考ゲームの解析に関する研究
利用语言模型和数学模型分析思维游戏的研究
  • 批准号:
    20K12122
  • 财政年份:
    2020
  • 资助金额:
    $ 4.16万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
deep reinforcement learning for imperfect and multi-player environments
针对不完美和多人环境的深度强化学习
  • 批准号:
    18K19832
  • 财政年份:
    2018
  • 资助金额:
    $ 4.16万
  • 项目类别:
    Grant-in-Aid for Challenging Research (Exploratory)
How to Coach Human Players using Computer Go Program
如何使用计算机围棋程序指导人类棋手
  • 批准号:
    17K00506
  • 财政年份:
    2017
  • 资助金额:
    $ 4.16万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Research on Advice in Game AI
游戏人工智能建议研究
  • 批准号:
    17K12807
  • 财政年份:
    2017
  • 资助金额:
    $ 4.16万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了