統計的学習に基づく強化学習に関する研究
基于统计学习的强化学习研究
基本信息
- 批准号:20700208
- 负责人:
- 金额:$ 1.91万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Young Scientists (B)
- 财政年份:2008
- 资助国家:日本
- 起止时间:2008 至 2009
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
多くの強化学習法では、ある状態である行動を取ることの将来的な良さを表す「価値関数」を近似する必要がある。最も広く行われている方法は、価値関数をパラメータと基底関数の内積で表現する線形関数近似を行う方法である。基底関数は設計者の試行錯誤により得られる。自動的に基底関数を構築する方法もあるが、非常に大きな計算コストが掛かる。我々は、価値関数の近似誤差を逐次的に減少させる近似法を提案しており、本年度は主にこの業績化に取り組んだ。この方法は、設計者の事前の試行錯誤を必要とせず、また、計算コストも小さくて済む。基本的なアルゴリズムを国際会議論文として業績化し、それをロバストに改良したアルゴリズムについても国際会議論文として業績化した。アルゴリズムの性質を理論面および実験面においてより深め学術論文誌へ投稿したがまだ採録に至っていない。アルゴリズム全2体の統計的な性質をクリアにすることで、さらなる業績化が可能と考えている。また、これまでに考案してきた統計的学習に基づく種々の強化学習アルゴリズムを、本科研費で購入した実機ロボットへ適用し学習を試みた。具体的には、レゴマインドストームを用いて二輪型ロボットを作製し、そのバランシングを新たな強化学習法を用いて行った。二輪型ロボットのバランシングを自動調整することは、自転車やバイクにおける個々人の運転の快適性を向上させることに貢献し、さらには事故率の低減にも繋がると考えている。
许多强化学习方法需要近似一个“价值函数”,它代表在某种状态下采取某种行动的未来好处。最广泛使用的方法是执行线性函数近似,其中值函数表示为参数和基函数的内积。基函数是设计者通过反复试验获得的。有一种方法可以自动构造基函数,但这需要非常大的计算成本。我们提出了一种逼近方法,逐步降低了值函数的逼近误差,今年我们主要致力于这个成果。该方法不需要设计者事先进行试错,并且计算成本也较低。基础算法作为国际会议论文发表,鲁棒改进算法也作为国际会议论文发表。我从理论上和实验上加深了对该算法性质的理解,并已提交给学术期刊,但尚未被接受。我们相信,通过阐明所有两种算法的统计特性,将有可能取得进一步的成就。我们还尝试通过将我们迄今为止设计的基于统计学习的各种强化学习算法应用于用研究经费购买的实际机器人来进行学习。具体来说,他们使用乐高 Mindstorms 创建了一个两轮机器人,并使用新的强化学习方法对其进行平衡。我们相信,自动调节两轮机器人的平衡将有助于提高个人骑自行车和摩托车的舒适度,也将导致事故率的降低。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Self-organized reinforcement learning based on policy gradient in nonstationary environment
非平稳环境下基于策略梯度的自组织强化学习
- DOI:
- 发表时间:2008
- 期刊:
- 影响因子:0
- 作者:Maruyama;T;Matsuura;M.;Suzuki;K.;Yamamoto;N;Y. Taniguchi;Y. Hiei
- 通讯作者:Y. Hiei
A semiparametric statistical approach to model-free policy evaluation
- DOI:10.1145/1390156.1390291
- 发表时间:2008-07
- 期刊:
- 影响因子:0
- 作者:Tsuyoshi Ueno;M. Kawanabe;Takeshi Mori;S. Maeda;S. Ishii
- 通讯作者:Tsuyoshi Ueno;M. Kawanabe;Takeshi Mori;S. Maeda;S. Ishii
An Additive Reinforcement Learning
- DOI:10.1007/978-3-642-04274-4_63
- 发表时间:2009-09
- 期刊:
- 影响因子:0
- 作者:Takeshi Mori;S. Ishii
- 通讯作者:Takeshi Mori;S. Ishii
Robust approximation in decomposed reinforcement learning
分解强化学习中的鲁棒逼近
- DOI:
- 发表时间:2009
- 期刊:
- 影响因子:0
- 作者:T.Mori;S.Ishii
- 通讯作者:S.Ishii
A continuous internal-state controller for partially observable Markov decision processes
用于部分可观察马尔可夫决策过程的连续内部状态控制器
- DOI:
- 发表时间:2008
- 期刊:
- 影响因子:0
- 作者:Maruyama T;Matsuura M;Suzuki K;Yamamoto N;山口 真美;Y,Taniguchi
- 通讯作者:Y,Taniguchi
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
森 健其他文献
生体分子の効率的捕捉・送達のための高分子ナノカプセルの開発
开发用于有效捕获和递送生物分子的聚合物纳米胶囊
- DOI:
- 发表时间:
2016 - 期刊:
- 影响因子:0
- 作者:
岸村 顕広;秦 智貴;唐 ヘン敏;劉 一イ;森 健;片山 佳樹 - 通讯作者:
片山 佳樹
酵素増感反応による低発現膜タンパク質の検出を目指したキノンメチド型蛍光基質の開発
酶敏反应检测低表达膜蛋白的醌甲基化物型荧光底物的研制
- DOI:
- 发表时间:
2020 - 期刊:
- 影响因子:0
- 作者:
桝井 美咲;小野 啓一郎;野口 克也;下村 隆;大内 雄也;石山 宗孝;志賀 匡宣;上野 右一郎;岸村 顕広;森 健;片山 佳樹 - 通讯作者:
片山 佳樹
方策こう配法に基づく強化学習法と二足歩行運動制御への応用
基于策略梯度法的强化学习方法及其在双足运动控制中的应用
- DOI:
- 发表时间:
2005 - 期刊:
- 影响因子:0
- 作者:
吉本 潤一郎;Kazuhiro Morita;Masao Fuketa;石井 信;Shunkaku Kashiji;森 健 - 通讯作者:
森 健
An improvement key deletiob method for double-array structure using single-nodes
一种改进的单节点双数组结构关键删除方法
- DOI:
- 发表时间:
2004 - 期刊:
- 影响因子:0
- 作者:
吉本 潤一郎;Kazuhiro Morita;Masao Fuketa;石井 信;Shunkaku Kashiji;森 健;Masaki Oono - 通讯作者:
Masaki Oono
複数の低発現膜タンパク質の同時検出を可能とする酵素応答性基質の開発
开发能够同时检测多种低表达膜蛋白的酶响应底物
- DOI:
- 发表时间:
2020 - 期刊:
- 影响因子:0
- 作者:
金子 諒右;川村 真朱美;岸村 顕広;森 健;片山 佳樹 - 通讯作者:
片山 佳樹
森 健的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('森 健', 18)}}的其他基金
抗体医薬を真に置き換える小タンパク質医薬の開発
开发真正替代抗体药物的小蛋白药物
- 批准号:
23K21153 - 财政年份:2024
- 资助金额:
$ 1.91万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
膜タンパク質のノックダウンを可能にする新しい創薬概念の提案
提出一种能够敲除膜蛋白的新药物发现概念
- 批准号:
21K19054 - 财政年份:2021
- 资助金额:
$ 1.91万 - 项目类别:
Grant-in-Aid for Challenging Research (Exploratory)
抗体医薬を真に置き換える小タンパク質医薬の開発
开发真正替代抗体药物的小蛋白药物
- 批准号:
21H02061 - 财政年份:2021
- 资助金额:
$ 1.91万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
金融機関とのリレーションシップが企業の経営危機に与える影響-距離からのアプローチ
与金融机构的关系对企业管理危机的影响——远程方法
- 批准号:
22530382 - 财政年份:2010
- 资助金额:
$ 1.91万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
方策勾配法に基づく強化学習法と複雑システム制御への応用
基于策略梯度法的强化学习方法及其在复杂系统控制中的应用
- 批准号:
05J02773 - 财政年份:2005
- 资助金额:
$ 1.91万 - 项目类别:
Grant-in-Aid for JSPS Fellows
導電性高分子のひも状集合体を化学架橋により固定化・被覆したナノ導線の開発
开发具有化学交联固定和涂覆的导电聚合物绳状聚集体的纳米导线
- 批准号:
14750711 - 财政年份:2002
- 资助金额:
$ 1.91万 - 项目类别:
Grant-in-Aid for Young Scientists (B)
感熱性ポリマー・DNA複合体の開発と遺伝子診断ならびにDDSへの応用
热敏聚合物/DNA复合物的开发及其在基因诊断和DDS中的应用
- 批准号:
99J03315 - 财政年份:1999
- 资助金额:
$ 1.91万 - 项目类别:
Grant-in-Aid for JSPS Fellows
超塩基性岩の化学的カイネティクスと組織
超镁铁质岩石的化学动力学和结构
- 批准号:
58540518 - 财政年份:1983
- 资助金额:
$ 1.91万 - 项目类别:
Grant-in-Aid for General Scientific Research (C)
バウシンガー効果の転位構造依存性
包辛格效应对位错结构的依赖性
- 批准号:
X00210----575436 - 财政年份:1980
- 资助金额:
$ 1.91万 - 项目类别:
Grant-in-Aid for Encouragement of Young Scientists (A)
部分融解の状態にある岩石の組織, およびマグマの発生と分離の研究
岩石部分熔融状态结构及岩浆生成与分离研究
- 批准号:
X00090----554258 - 财政年份:1980
- 资助金额:
$ 1.91万 - 项目类别:
Grant-in-Aid for General Scientific Research (C)
相似海外基金
Toward measures and behavioral trials for effective online AUD recovery support
采取措施和行为试验以提供有效的在线澳元复苏支持
- 批准号:
10643056 - 财政年份:2023
- 资助金额:
$ 1.91万 - 项目类别:
Generalized prediction errors in the human cerebellum
人类小脑的广义预测误差
- 批准号:
10715334 - 财政年份:2023
- 资助金额:
$ 1.91万 - 项目类别:
Acquiring cognitive maps: how brains learn hidden structure
获取认知图:大脑如何学习隐藏结构
- 批准号:
10739622 - 财政年份:2023
- 资助金额:
$ 1.91万 - 项目类别:
P2: Geometry of Neural Representations and Dynamics
P2:神经表征和动力学的几何
- 批准号:
10705964 - 财政年份:2023
- 资助金额:
$ 1.91万 - 项目类别:
Statistical physics and network-based approaches for elucidating molecular biomarkers of COPD
阐明 COPD 分子生物标志物的统计物理学和基于网络的方法
- 批准号:
10559835 - 财政年份:2023
- 资助金额:
$ 1.91万 - 项目类别: