Discrete and Continuous Reinforcement Learning with a Library of Skills and its Application to Robotic Food Manipulation

具有技能库的离散和连续强化学习及其在机器人食品操作中的应用

基本信息

批准号：
21K12070
负责人：
山口明彦
金额：
$ 2.58万
依托单位：
Tohoku University
依托单位国家：
日本
项目类别：
Grant-in-Aid for Scientific Research (C)
财政年份：
2021
资助国家：
日本
起止时间：
2021-04-01 至 2024-03-31
项目状态：
已结题

项目摘要

本研究では，スキルの組み合わせ探索とパラメータの最適化で構成される「離散連続強化学習」手法の構築と，これにより，ロボットによって調理などの高度な物体操作を自動化することを目標とする．具体的には，次の(A)(B)(C)を研究項目として設定している．(A)スキルライブラリの構築，(B)スキルライブラリを利用したロボット動作の計画・制御・学習手法の開発，(C)シミュレーションやロボットを用いたタスクでの検証．本年度は，各研究項目について，以下の進展があった．(C-1)視触覚センサFingerVisionを搭載した高機能ロボットハンドを開発し，触覚情報処理プログラムや基本制御プログラムを開発した．このハンドを利用し，(A-1)手探り把持スキルを実装した．回日本ロボット学会学術講演会にて(C-1)(A-1)の学会発表を行った．(C-2)注ぐタスクにおいて，漏斗などの道具の使用やマヨネーズの容器のような柔軟な容器をシミュレーション実験で扱えるようにするためのシミュレータを開発した．このシミュレータは，これまでに我々が開発した注ぐタスクの検証シミュレータを改良する形で行われており，これまでと同様に粘性をもった液体などのシミュレーションが実施できることに加えて，(C-2)の改良が導入されている．この成果を回日本ロボット学会学術講演会にて発表した．このシミュレータを利用し，(A-2)注ぐタスクのための新たなスキルとして漏斗を利用するスキル，柔軟な容器を圧縮するスキルを開発した．さらに，(B-1)提案する離散連続強化学習手法で効率的に扱えるようにするダイナミクスモデルの構成方法を開発した．特に，学習したモデルが異なる状況でも共有できる（再利用できる）ような工夫を導入することで，学習効率を向上させることに成功した．一連の成果は国際会議にて発表した．

在这项研究中，目标是构建一种“离散的连续增强学习”方法，该方法包括寻找组合技能和优化参数，并自动化高级对象操作，例如使用机器人烹饪。具体而言，以下（a），（b）和（c）被设置为研究项目。（a）构建技能库，（b）使用技能库开发计划，控制和学习机器人运动的方法，以及（c）使用机器人验证模拟和任务。今年，关于每个研究项目取得了以下进展。（C-1）我们开发了一个配备了视觉和触觉传感器手指的高性能机器人手，并制定了触觉信息处理程序和基本控制程序。使用此手，实施了（A-1）摸索和抓紧技巧。关于（C-1）和（A-1）的会议演讲在日本机器人学会的学术讲座上举行。（C-2）在浇注任务中，我们开发了一个模拟器，以便在模拟实验中使用诸如Funnels和柔性容器（例如蛋黄酱容器）等工具。该模拟器已经实现了我们到目前为止已经开发的浇注任务验证模拟器的改进，除了能够像以前一样对粘性液体和其他材料进行模拟，还引入了（C-2）的改进。这一结果是在日本机器人学会的学术演讲中提出的。使用此模拟器，我们为（A-2）浇注任务开发了一项新技能，该任务利用了Funnels并压缩了灵活的容器。此外，我们已经开发了一种构建动力学模型的方法，该模型可以通过提议的离散连续增强学习方法（B-1）有效地处理。特别是，我们通过介绍允许允许训练有素的模型即使在不同情况下可以共享（重复使用）的想法来成功提高学习效率。一系列结果是在国际会议上提出的。