Discrete and Continuous Reinforcement Learning with a Library of Skills and its Application to Robotic Food Manipulation

具有技能库的离散和连续强化学习及其在机器人食品操作中的应用

基本信息

  • 批准号:
    21K12070
  • 负责人:
  • 金额:
    $ 2.58万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
  • 财政年份:
    2021
  • 资助国家:
    日本
  • 起止时间:
    2021-04-01 至 2024-03-31
  • 项目状态:
    已结题

项目摘要

本研究では,スキルの組み合わせ探索とパラメータの最適化で構成される「離散連続強化学習」手法の構築と,これにより,ロボットによって調理などの高度な物体操作を自動化することを目標とする.具体的には,次の(A)(B)(C)を研究項目として設定している.(A)スキルライブラリの構築,(B)スキルライブラリを利用したロボット動作の計画・制御・学習手法の開発,(C)シミュレーションやロボットを用いたタスクでの検証.本年度は,各研究項目について,以下の進展があった.(C-1)視触覚センサFingerVisionを搭載した高機能ロボットハンドを開発し,触覚情報処理プログラムや基本制御プログラムを開発した.このハンドを利用し,(A-1)手探り把持スキルを実装した.回日本ロボット学会学術講演会にて(C-1)(A-1)の学会発表を行った.(C-2)注ぐタスクにおいて,漏斗などの道具の使用やマヨネーズの容器のような柔軟な容器をシミュレーション実験で扱えるようにするためのシミュレータを開発した.このシミュレータは,これまでに我々が開発した注ぐタスクの検証シミュレータを改良する形で行われており,これまでと同様に粘性をもった液体などのシミュレーションが実施できることに加えて,(C-2)の改良が導入されている.この成果を回日本ロボット学会学術講演会にて発表した.このシミュレータを利用し,(A-2)注ぐタスクのための新たなスキルとして漏斗を利用するスキル,柔軟な容器を圧縮するスキルを開発した.さらに,(B-1)提案する離散連続強化学習手法で効率的に扱えるようにするダイナミクスモデルの構成方法を開発した.特に,学習したモデルが異なる状況でも共有できる(再利用できる)ような工夫を導入することで,学習効率を向上させることに成功した.一連の成果は国際会議にて発表した.
这项研究的目标是构建一种由技能组合搜索和参数优化组成的“离散连续强化学习”方法,并用它来自动化高级对象操作,例如机器人烹饪。具体而言,设定以下的(A)、(B)、(C)作为研究项目。 (A) 构建技能库,(B) 使用技能库开发机器人运动的规划、控制和学习方法,以及 (C) 使用模拟和机器人验证任务。今年,各研究项目取得了以下进展。 (C-1)我们开发了配备视觉触觉传感器FingerVision的高性能机械手,并开发了触觉信息处理程序和基本控制程序。使用这只手,我们实现了(A-1)摸索掌握技巧。 (C-1)(A-1)在日本机器人学会年会上提出。 (C-2) 在浇注任务中,我们开发了一个模拟器,允许我们在模拟实验中使用漏斗等工具并处理蛋黄酱容器等柔性容器。这个模拟器是我们之前开发的浇注任务验证模拟器的改进,除了能够像以前一样模拟粘性液体外,它还具有以下功能:)引入了改进。该成果在日本机器人学会年会上公布。使用这个模拟器,我们开发了 (A-2) 浇注任务的新技能:使用漏斗的技能和压缩柔性容器的技能。此外,(B-1)我们开发了一种配置动态模型的方法,可以通过所提出的离散连续强化学习方法有效地处理该模型。特别是,我们通过引入一种允许在不同情况下共享(重用)学习模型的设备,成功地提高了学习效率。一系列成果在国际会议上公布。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
液体スキルシミュレータ:道具と柔軟な容器の導入
液体技能模拟器:引入工具和灵活容器
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    八島 諒汰;山口 明彦;橋本 浩一
  • 通讯作者:
    橋本 浩一
Reinforcement learning with incremental skill models: Extension to tool use as skills
確率的モデルベース型強化学習における液体マニピュレーションのマルチモーダルダイナミクスの解析
基于随机模型的强化学习中液体操纵的多模态动力学分析
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    八島 諒汰;山口 明彦;橋本 浩一
  • 通讯作者:
    橋本 浩一
Sample-Efficient Multimodal Dynamics Modeling for Risk-Sensitive Reinforcement Learning
用于风险敏感强化学习的样本高效多模态动力学建模
視触覚センサFingerVisionを搭載した高機能ロボットハンド
配备视觉触觉传感器 FingerVision 的高性能机械手
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    八島 諒汰;山口 明彦;橋本 浩一;山口 明彦
  • 通讯作者:
    山口 明彦
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

山口 明彦其他文献

性転換に伴うホシササノハベラの脳下垂体における生殖腺刺激ホルモン(GtH)mRNA発現量の変化
性别改变导致 Hoshisasanohabera 垂体促性腺激素 (GtH) mRNA 表达水平的变化
  • DOI:
  • 发表时间:
    2008
  • 期刊:
  • 影响因子:
    0
  • 作者:
    入江 奨;北野 載;山口 明彦;太田 耕平;松山 倫也
  • 通讯作者:
    松山 倫也
人の把持行動に基づく物体操作データベースの構築手法
一种基于人类抓取行为的物体操纵数据库构建方法
  • DOI:
  • 发表时间:
    2014
  • 期刊:
  • 影响因子:
    0
  • 作者:
    島田 健史;杉垣 彰教;山口 明彦;池田 篤俊;高松 淳;小笠原 司
  • 通讯作者:
    小笠原 司
等身大ヒューマノイドロボットによる給仕動作の実現と実行時間に対する考察
真人大小的仿人机器人服务行为的实现及执行时间的考虑
  • DOI:
  • 发表时间:
    2014
  • 期刊:
  • 影响因子:
    0
  • 作者:
    築地原 里樹;山口 明彦;吉川 雅博;高松 淳;小笠原 司
  • 通讯作者:
    小笠原 司

山口 明彦的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('山口 明彦', 18)}}的其他基金

Development of the gonadotropin secretion promotion technique using the Tiger puffer pituitary spheroid culture
利用虎鲀垂体球培养促进促性腺激素分泌技术的开发
  • 批准号:
    21K05727
  • 财政年份:
    2021
  • 资助金额:
    $ 2.58万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
汎用ロボットの行動獲得のための目的主導型プログラミング言語
用于通用机器人行为获取的目的驱动编程语言
  • 批准号:
    10J09030
  • 财政年份:
    2010
  • 资助金额:
    $ 2.58万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
機能的過負荷に伴う筋肥大、筋線維組成の変化に及ぼす局所的因子の影響
局部因素对肌肉肥大的影响以及功能超负荷引起的肌纤维组成的变化
  • 批准号:
    11780034
  • 财政年份:
    1999
  • 资助金额:
    $ 2.58万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
機能的過負荷による骨格筋線維組成の変化に及ぼす神経の役割
神经在功能超负荷引起的骨骼肌纤维组成变化中的作用
  • 批准号:
    08780096
  • 财政年份:
    1996
  • 资助金额:
    $ 2.58万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)

相似海外基金

計測・通信品質が保証されない環境下の多目的フィードフォワード最適制御と強化学習
测量和通信质量无法保证环境下的多目标前馈最优控制和强化学习
  • 批准号:
    23K20948
  • 财政年份:
    2024
  • 资助金额:
    $ 2.58万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
遅延を考慮した非同期分散型マルチモジュール・タイムスケール深層強化学習の開発
考虑延迟的异步分布式多模块时间尺度深度强化学习的开发
  • 批准号:
    23K21710
  • 财政年份:
    2024
  • 资助金额:
    $ 2.58万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
正則化機能強化による超ロバスト推定法の開拓と一般化:信号処理・機械学習への応用
通过加强正则化功能开发和推广超鲁棒估计方法:在信号处理和机器学习中的应用
  • 批准号:
    23K22762
  • 财政年份:
    2024
  • 资助金额:
    $ 2.58万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
強化学習を用いた分散制御によるネットワーク信号制御の最適化に関する研究
基于强化学习的分布式控制网络信号控制优化研究
  • 批准号:
    23K26216
  • 财政年份:
    2024
  • 资助金额:
    $ 2.58万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
深層強化学習を用いた運動ノイズの影響を最小化する運動制御推定フレームワークの構築
使用深度强化学习构建运动控制估计框架,最大限度地减少运动噪声的影响
  • 批准号:
    24KJ2223
  • 财政年份:
    2024
  • 资助金额:
    $ 2.58万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了