深層強化学習による多目的環境下での調和的行動の実現
使用深度强化学习在多目标环境中实现和谐行为
基本信息
- 批准号:21K12069
- 负责人:
- 金额:$ 2.41万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Scientific Research (C)
- 财政年份:2021
- 资助国家:日本
- 起止时间:2021-04-01 至 2025-03-31
- 项目状态:未结题
- 来源:
- 关键词:
项目摘要
多目的環境下における均衡的行動の決定手法を目指し,本年度では(1)タスクの追加・削除・効率的な追加タスクの学習手法についての提案および(2)深層強化学習の実装・実験を行い,(3)実機実験に向けた実ロボットの検討を行った.(1)ではタスクに階層構造を持たせ,既存のタスクを組み合わせて新たなタスクを定義する手法について提案した.上位となる新規のタスクは下位となる既存のタスクに対する優先度の制御を行動とみなし,行動学習を行うことで上位のタスク達成を行う.また独立のタスク同士ではこれまで通り優先度の決定を独立に行い,全体として従来提案してきた優先度に基づく行動調停を行う.これにより漸次的に複雑なタスク達成を実現する手法を提案した.また多数のタスクを扱うことから優先度決定のための要因を従来の1次元から多次元に拡張する必要が生じた.そこで優先度決定のために用いている区分線形関数を多次元に拡張しつつ,より簡便に多次元入力を扱える他の関数の検討を行った.(2)については(1)で提案した手法に深層学習を組み込むために,深層強化学習の実装を行い,複数の学習空間の協調によって単一の行動を出力するシステムの実装を行い実験により稼働を確認した.また深層学習のハードウェアアクセラレーションとして,USB経由で接続される簡易デバイスを用いて学習時間短縮が可能であることを確認した.(3)についてはSBCをベースとした実ロボットについて,製作・完成品の購入の両面から検討を行っており,半導体不足の状況に応じてi)クローラ型製作,ii)クローラ型購入・改造,iii)脚式製作,iv)人形購入と選択肢を検討している.
为了开发一种在多目标环境中确定平衡行为的方法,今年我们将(1)提出一种添加和删除任务的方法以及高效附加任务的学习方法,以及(2)实施和实验深度强化学习3)我们研究了一个实际的机器人进行实际实验。在(1)中,我们提出了一种赋予任务层次结构并通过组合现有任务来定义新任务的方法。成为较高级别任务的新任务考虑控制作为较低级别任务的现有任务的优先级作为动作,并执行行为学习以实现较高级别任务。此外,独立任务的优先级像以前一样独立确定,整体行为根据过去提出的优先级进行仲裁。我们提出了一种方法来实现逐渐复杂的任务。此外,由于我们正在处理大量的任务,因此有必要将确定优先级的因素从传统的一维扩展到多维。因此,我们将用于确定优先级的分段线性函数扩展到多个维度,并研究了其他可以更轻松地处理多维输入的函数。关于(2),为了将深度学习融入到(1)中提出的方法中,我们实现了深度强化学习,实现了通过多个学习空间的协作输出单个动作的系统,并通过实验对其进行了操作,我证实了这一点。那。我们还确认,通过使用通过 USB 连接的简单设备作为深度学习的硬件加速,可以缩短学习时间。关于(3),我们正在考虑基于SBC的实际机器人的成品的生产和采购,并且根据半导体短缺情况,我们正在考虑i)制造履带式,ii)采购和修改履带式,我正在考虑诸如 iii) 基于腿部的生产和 iv) 购买娃娃等选项。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Proposal of Decision-Making Method Under Multi-Task Based on Q-Value Weighted by Task Priority
基于任务优先级加权Q值的多任务决策方法提出
- DOI:10.20965/jaciii.2022.p0706
- 发表时间:2022
- 期刊:
- 影响因子:0.7
- 作者:Hanagata Tomomi;Muroran Institute of Technology 27;Kurashige Kentarou
- 通讯作者:Kurashige Kentarou
タスクの優先度で重みづけされた行動価値に基づく複数タスク下における意思決定手法の提案
提出一种多任务下基于任务优先级加权动作值的决策方法
- DOI:
- 发表时间:2021
- 期刊:
- 影响因子:0
- 作者:花形 知美; 倉重 健太郎; 上林 拓馬
- 通讯作者:上林 拓馬
タスクの優先度に基づくマルチタスク強化学習の意思決定手法の提案 -区分線形関数を用いた優先度の設計による環境への適応性の向上-
基于任务优先级的多任务强化学习决策方法的提出 - 通过使用分段线性函数设计优先级来提高对环境的适应性 -
- DOI:
- 发表时间:2022
- 期刊:
- 影响因子:0
- 作者:藤山 龍希
- 通讯作者:藤山 龍希
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
倉重 健太郎其他文献
倉重 健太郎的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
相似海外基金
AI Encouragement and Visualization System for Material Recycling Closed-loop Supply Chain
物资回收闭环供应链AI激励及可视化系统
- 批准号:
22KJ1363 - 财政年份:2023
- 资助金额:
$ 2.41万 - 项目类别:
Grant-in-Aid for JSPS Fellows
不確実状況下における多目的非ゼロ和ゲームに対する意思決定
不确定性下多目标非零和博弈决策
- 批准号:
20K04966 - 财政年份:2020
- 资助金额:
$ 2.41万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Development of Material Selection System for Trade-Off between Environmental Loads and Costs using Multi-Criteria Decision Making
使用多标准决策开发用于权衡环境负荷和成本的材料选择系统
- 批准号:
18J14789 - 财政年份:2018
- 资助金额:
$ 2.41万 - 项目类别:
Grant-in-Aid for JSPS Fellows
Interactive decision making for multilevel multiobjective simple recourse programming problems and its applications
多层次多目标简单资源规划问题的交互式决策及其应用
- 批准号:
17K01264 - 财政年份:2017
- 资助金额:
$ 2.41万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Development of innovative process design methodology for pharmaceutical manufacturing and tool implementation
开发用于药品制造和工具实施的创新工艺设计方法
- 批准号:
17H04964 - 财政年份:2017
- 资助金额:
$ 2.41万 - 项目类别:
Grant-in-Aid for Young Scientists (A)