面向非限定条件的演化强化学习理论与算法研究
项目介绍
AI项目解读
基本信息
- 批准号:61375061
- 项目类别:面上项目
- 资助金额:79.0万
- 负责人:
- 依托单位:
- 学科分类:F0603.机器学习
- 结题年份:2017
- 批准年份:2013
- 项目状态:已结题
- 起止时间:2014-01-01 至2017-12-31
- 项目参与者:赵金熙; 钱超; 邢佑路; 郭训力; 宋拴; 胡孟;
- 关键词:
项目摘要
Reinforcement learning, which is a major branch of machine learning, studies how an agent obtains an optimal policy that maximizes its long-term accumulated reward by learning from interactions with the environment. In classical reinforcement learning research, the agent is assumed to be placed under controlled conditions such as a simple and static environment. However, as reinforcement learning is getting wider applications, the agent is placed in sophisticated and dynamic environments, and thus the controlled assumptions break and traditional approaches fail. The extending of traditional approaches to fit uncontrolled conditions faces several main barriers including aspects from the learning target and the model representation, mainly due to the lack of suitable optimization approaches. This project proposes to study evolutionary reinforcement learning (ERL), which borrows the optimization power of evolutionary algorithms to tackle the barriers. First, to the key problem that ERL has little theoretical foundation, we propose a theoretical analysis tool. Then to the two barriers in learning target and model representation, we propose to study ERL with directly policy optimization, and with additive models, respectively. Finally, combining the research from the above aspects, we propose to study ERL for the transfer reinforcement learning problem. Project outcome would include the publication of 8 to 10 papers in "IEEE Trans." level international journals, conferences and domestic top journals, applications for 2 to 3 national patents, and supports to several graduate students.
强化学习是机器学习的一个重要分支领域,研究如何使智能体从环境交互过程中学习到最优策略以最大化累积奖赏,具有广泛的应用前景。经典强化学习假设智能体处在简单固定环境等限定条件下,然而随着强化学习向更多应用领域拓展,智能体所处环境复杂多变,限定条件下的假设不再成立,经典方法难以适用。由于缺乏有效优化手段,经典方法向非限定条件的推广面临学习目标、模型表示两方面障碍。本项目研究面向非限定条件的演化强化学习,用演化算法的优化能力处理这两方面障碍,针对演化强化学习理论基础薄弱这一关键问题提出一种理论分析方法;针对学习目标、模型表达上的障碍,分别提出一种直接策略优化演化强化学习方法、一种使用加性模型的演化强化学习方法;针对固定环境这一经典限定,整合以上工作,提出一种可跨环境的演化强化学习方法。计划在IEEE Trans级别国际期刊和会议、国内一级学报发表论文8-10篇,申请专利2-3项,培养研究生多名。
结项摘要
本项目针对非限定条件强化学习问题,通过利用演化优化算法、扩展强化学习方法、发展直接策略优化、使用加性模型强化学习方法,提出一种可跨环境的演化强化学习方法。具体如下:1、提出了演化强化学习理论分析工具,交换分析方法,并用于多种演化优化算法的分析,相关工作发表在顶级国际期刊《Artificial Intelligence》(CCF A类)和重要国际期刊《IEEE Trans. EC》、《Science China: Information Sciences》,以及国际重要会议IDEAL’16、IEEE CEC’15上;2、针对以往强化学习方法面临的策略退化、高维、约束优化等问题,提出了基于分类的演化强化学习方法RACOS、SRACOS,并使用序列化随机嵌入技术,将其扩展求解高维问题,提出了Pareto多目标优化方法解决约束优化问题,并用其进行直接策略优化,相关工作发表在国际顶级会议AAAI、IJCAI、NIPS(CCF A类)和重要国际会议PRICAI’16、IEEE CEC’16、IEEE CEC’14上;3、提出PolicyBoost方法,使用加性模型成功扩展了强化学习模型的表达能力,并提出Napping方法解决加性模型下计算开销大的缺陷,相关工作发表在国际重要会议AAMAS’14、AAMAS’16上;4、利用噪音对强化学习进行跨环境建模,提出了ASG框架处理开放类别检测问题,并对策略跨环境迁移进行研究,提出自演进迁移方法,能够通过环境迁移高效地获得有效策略,相关工作发表在重要国际期刊《Evolutionary Computation》,国际顶级会议IJCAI’17、AAAI’14(CCF-A类)和重要国际会议PPSN’14,自演进迁移方法已申请专利。此外,基于项目成果开发了一套演化强化学习工具包。..本项目共发表论文28篇,其中国际会议21篇(包括顶级国际会议NIPS等CCF A类会议13篇);国际期刊5篇(包括一流国际期刊《Artificial Intelligence》等);国内期刊2篇;论文已被SCI、EI收录24篇次,累计被引用280次;获得IDEAL’16最佳论文奖;国家发明专利1项;研制了一套自主服务智能体原型系统。..以该项目为支撑,培养硕士研究生14名,博士研究生3名。截止目前,项目完成预期任务,达到结题指标。
项目成果
期刊论文数量(7)
专著数量(0)
科研奖励数量(1)
会议论文数量(21)
专利数量(1)
Switch Analysis for Running Time Analysis of Evolutionary Algorithms
用于进化算法运行时间分析的开关分析
- DOI:--
- 发表时间:2015
- 期刊:IEEE Transactions on Evolutionary Computation
- 影响因子:14.3
- 作者:俞扬;Chao Qian;周志华
- 通讯作者:周志华
Variable solution structure can be helpful in evolutionary optimization
可变解结构有助于进化优化
- DOI:10.1007/s11432-015-5382-y
- 发表时间:2015
- 期刊:Science China: Information Sciences
- 影响因子:--
- 作者:QIAN Chao;俞扬;周志华
- 通讯作者:周志华
Analyzing Evolutionary Optimization in Noisy Environments
分析噪声环境中的进化优化
- DOI:10.1162/evco_a_00170
- 发表时间:--
- 期刊:Evolutionary Computation
- 影响因子:6.8
- 作者:Chao Qian;俞扬;周志华
- 通讯作者:周志华
On the Effectiveness of Sampling for Evolutionary Optimization in Noisy Environments
噪声环境中进化优化采样的有效性
- DOI:--
- 发表时间:--
- 期刊:Evolutionary Computation
- 影响因子:6.8
- 作者:Chao Qian;俞扬;Ke Tang;Yaochu Jin;Xin Yao;周志华
- 通讯作者:周志华
强化学习及其在电脑围棋中的应用
- DOI:--
- 发表时间:2016
- 期刊:自动化学报
- 影响因子:--
- 作者:陈兴国;俞扬
- 通讯作者:俞扬
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--"}}
- 发表时间:{{ item.publish_year || "--" }}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--"}}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ patent.updateTime }}
其他文献
幼猪脊柱侧凸模型中椎体与椎间盘楔形变的进展规律及其意义
- DOI:--
- 发表时间:2013
- 期刊:中国脊柱脊髓杂志
- 影响因子:--
- 作者:朱泽章;王斌;俞扬;吴涛
- 通讯作者:吴涛
强化学习及其在电脑围棋中的应用
- DOI:--
- 发表时间:2016
- 期刊:自动化学报
- 影响因子:--
- 作者:陈兴国;俞扬
- 通讯作者:俞扬
改进的非等间距灰色模型在大坝位移预测中的应用
- DOI:--
- 发表时间:2017
- 期刊:长江科学院院报
- 影响因子:--
- 作者:俞艳玲;郑东健;俞扬;居艳阳;方正
- 通讯作者:方正
基于蒙皮效应钢梁的静力性能研究
- DOI:--
- 发表时间:2013
- 期刊:湖南大学学报(自然科学版)
- 影响因子:--
- 作者:杜运兴;俞扬;孙倩
- 通讯作者:孙倩
基于Pearson相关性检验的ARIMA边坡位移监测模型
- DOI:--
- 发表时间:2016
- 期刊:水利水电技术
- 影响因子:--
- 作者:胡添翼;杨光;陈波;俞扬;陶园
- 通讯作者:陶园
其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--" }}
- 发表时间:{{ item.publish_year || "--"}}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--" }}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
内容获取失败,请点击重试
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:
AI项目摘要
AI项目思路
AI技术路线图
请为本次AI项目解读的内容对您的实用性打分
非常不实用
非常实用
1
2
3
4
5
6
7
8
9
10
您认为此功能如何分析更能满足您的需求,请填写您的反馈:
俞扬的其他基金
面向高动态环境的强化学习策略搜索理论与方法研究
- 批准号:61876077
- 批准年份:2018
- 资助金额:64.0 万元
- 项目类别:面上项目
相似国自然基金
{{ item.name }}
- 批准号:{{ item.ratify_no }}
- 批准年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}
相似海外基金
{{
item.name }}
{{ item.translate_name }}
- 批准号:{{ item.ratify_no }}
- 财政年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}