面向非限定条件的演化强化学习理论与算法研究

结题报告
项目介绍
AI项目解读

基本信息

  • 批准号:
    61375061
  • 项目类别:
    面上项目
  • 资助金额:
    79.0万
  • 负责人:
  • 依托单位:
  • 学科分类:
    F0603.机器学习
  • 结题年份:
    2017
  • 批准年份:
    2013
  • 项目状态:
    已结题
  • 起止时间:
    2014-01-01 至2017-12-31

项目摘要

Reinforcement learning, which is a major branch of machine learning, studies how an agent obtains an optimal policy that maximizes its long-term accumulated reward by learning from interactions with the environment. In classical reinforcement learning research, the agent is assumed to be placed under controlled conditions such as a simple and static environment. However, as reinforcement learning is getting wider applications, the agent is placed in sophisticated and dynamic environments, and thus the controlled assumptions break and traditional approaches fail. The extending of traditional approaches to fit uncontrolled conditions faces several main barriers including aspects from the learning target and the model representation, mainly due to the lack of suitable optimization approaches. This project proposes to study evolutionary reinforcement learning (ERL), which borrows the optimization power of evolutionary algorithms to tackle the barriers. First, to the key problem that ERL has little theoretical foundation, we propose a theoretical analysis tool. Then to the two barriers in learning target and model representation, we propose to study ERL with directly policy optimization, and with additive models, respectively. Finally, combining the research from the above aspects, we propose to study ERL for the transfer reinforcement learning problem. Project outcome would include the publication of 8 to 10 papers in "IEEE Trans." level international journals, conferences and domestic top journals, applications for 2 to 3 national patents, and supports to several graduate students.
强化学习是机器学习的一个重要分支领域,研究如何使智能体从环境交互过程中学习到最优策略以最大化累积奖赏,具有广泛的应用前景。经典强化学习假设智能体处在简单固定环境等限定条件下,然而随着强化学习向更多应用领域拓展,智能体所处环境复杂多变,限定条件下的假设不再成立,经典方法难以适用。由于缺乏有效优化手段,经典方法向非限定条件的推广面临学习目标、模型表示两方面障碍。本项目研究面向非限定条件的演化强化学习,用演化算法的优化能力处理这两方面障碍,针对演化强化学习理论基础薄弱这一关键问题提出一种理论分析方法;针对学习目标、模型表达上的障碍,分别提出一种直接策略优化演化强化学习方法、一种使用加性模型的演化强化学习方法;针对固定环境这一经典限定,整合以上工作,提出一种可跨环境的演化强化学习方法。计划在IEEE Trans级别国际期刊和会议、国内一级学报发表论文8-10篇,申请专利2-3项,培养研究生多名。

结项摘要

本项目针对非限定条件强化学习问题,通过利用演化优化算法、扩展强化学习方法、发展直接策略优化、使用加性模型强化学习方法,提出一种可跨环境的演化强化学习方法。具体如下:1、提出了演化强化学习理论分析工具,交换分析方法,并用于多种演化优化算法的分析,相关工作发表在顶级国际期刊《Artificial Intelligence》(CCF A类)和重要国际期刊《IEEE Trans. EC》、《Science China: Information Sciences》,以及国际重要会议IDEAL’16、IEEE CEC’15上;2、针对以往强化学习方法面临的策略退化、高维、约束优化等问题,提出了基于分类的演化强化学习方法RACOS、SRACOS,并使用序列化随机嵌入技术,将其扩展求解高维问题,提出了Pareto多目标优化方法解决约束优化问题,并用其进行直接策略优化,相关工作发表在国际顶级会议AAAI、IJCAI、NIPS(CCF A类)和重要国际会议PRICAI’16、IEEE CEC’16、IEEE CEC’14上;3、提出PolicyBoost方法,使用加性模型成功扩展了强化学习模型的表达能力,并提出Napping方法解决加性模型下计算开销大的缺陷,相关工作发表在国际重要会议AAMAS’14、AAMAS’16上;4、利用噪音对强化学习进行跨环境建模,提出了ASG框架处理开放类别检测问题,并对策略跨环境迁移进行研究,提出自演进迁移方法,能够通过环境迁移高效地获得有效策略,相关工作发表在重要国际期刊《Evolutionary Computation》,国际顶级会议IJCAI’17、AAAI’14(CCF-A类)和重要国际会议PPSN’14,自演进迁移方法已申请专利。此外,基于项目成果开发了一套演化强化学习工具包。..本项目共发表论文28篇,其中国际会议21篇(包括顶级国际会议NIPS等CCF A类会议13篇);国际期刊5篇(包括一流国际期刊《Artificial Intelligence》等);国内期刊2篇;论文已被SCI、EI收录24篇次,累计被引用280次;获得IDEAL’16最佳论文奖;国家发明专利1项;研制了一套自主服务智能体原型系统。..以该项目为支撑,培养硕士研究生14名,博士研究生3名。截止目前,项目完成预期任务,达到结题指标。

项目成果

期刊论文数量(7)
专著数量(0)
科研奖励数量(1)
会议论文数量(21)
专利数量(1)
Switch Analysis for Running Time Analysis of Evolutionary Algorithms
用于进化算法运行时间分析的开关分析
  • DOI:
    --
  • 发表时间:
    2015
  • 期刊:
    IEEE Transactions on Evolutionary Computation
  • 影响因子:
    14.3
  • 作者:
    俞扬;Chao Qian;周志华
  • 通讯作者:
    周志华
Variable solution structure can be helpful in evolutionary optimization
可变解结构有助于进化优化
  • DOI:
    10.1007/s11432-015-5382-y
  • 发表时间:
    2015
  • 期刊:
    Science China: Information Sciences
  • 影响因子:
    --
  • 作者:
    QIAN Chao;俞扬;周志华
  • 通讯作者:
    周志华
Analyzing Evolutionary Optimization in Noisy Environments
分析噪声环境中的进化优化
  • DOI:
    10.1162/evco_a_00170
  • 发表时间:
    --
  • 期刊:
    Evolutionary Computation
  • 影响因子:
    6.8
  • 作者:
    Chao Qian;俞扬;周志华
  • 通讯作者:
    周志华
On the Effectiveness of Sampling for Evolutionary Optimization in Noisy Environments
噪声环境中进化优化采样的有效性
  • DOI:
    --
  • 发表时间:
    --
  • 期刊:
    Evolutionary Computation
  • 影响因子:
    6.8
  • 作者:
    Chao Qian;俞扬;Ke Tang;Yaochu Jin;Xin Yao;周志华
  • 通讯作者:
    周志华
强化学习及其在电脑围棋中的应用
  • DOI:
    --
  • 发表时间:
    2016
  • 期刊:
    自动化学报
  • 影响因子:
    --
  • 作者:
    陈兴国;俞扬
  • 通讯作者:
    俞扬

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--"}}
  • 发表时间:
    {{ item.publish_year || "--" }}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--"}}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ patent.updateTime }}

其他文献

幼猪脊柱侧凸模型中椎体与椎间盘楔形变的进展规律及其意义
  • DOI:
    --
  • 发表时间:
    2013
  • 期刊:
    中国脊柱脊髓杂志
  • 影响因子:
    --
  • 作者:
    朱泽章;王斌;俞扬;吴涛
  • 通讯作者:
    吴涛
强化学习及其在电脑围棋中的应用
  • DOI:
    --
  • 发表时间:
    2016
  • 期刊:
    自动化学报
  • 影响因子:
    --
  • 作者:
    陈兴国;俞扬
  • 通讯作者:
    俞扬
改进的非等间距灰色模型在大坝位移预测中的应用
  • DOI:
    --
  • 发表时间:
    2017
  • 期刊:
    长江科学院院报
  • 影响因子:
    --
  • 作者:
    俞艳玲;郑东健;俞扬;居艳阳;方正
  • 通讯作者:
    方正
基于蒙皮效应钢梁的静力性能研究
  • DOI:
    --
  • 发表时间:
    2013
  • 期刊:
    湖南大学学报(自然科学版)
  • 影响因子:
    --
  • 作者:
    杜运兴;俞扬;孙倩
  • 通讯作者:
    孙倩
基于Pearson相关性检验的ARIMA边坡位移监测模型
  • DOI:
    --
  • 发表时间:
    2016
  • 期刊:
    水利水电技术
  • 影响因子:
    --
  • 作者:
    胡添翼;杨光;陈波;俞扬;陶园
  • 通讯作者:
    陶园

其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--" }}
  • 发表时间:
    {{ item.publish_year || "--"}}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--" }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}
empty
内容获取失败,请点击重试
重试联系客服
title开始分析
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:

AI项目思路

AI技术路线图

俞扬的其他基金

面向高动态环境的强化学习策略搜索理论与方法研究
  • 批准号:
    61876077
  • 批准年份:
    2018
  • 资助金额:
    64.0 万元
  • 项目类别:
    面上项目

相似国自然基金

{{ item.name }}
  • 批准号:
    {{ item.ratify_no }}
  • 批准年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}

相似海外基金

{{ item.name }}
{{ item.translate_name }}
  • 批准号:
    {{ item.ratify_no }}
  • 财政年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了

AI项目解读示例

课题项目:调控A型流感病毒诱导IFN-β表达的机制研究

AI项目摘要:

本研究聚焦于TRIM2蛋白在A型流感病毒诱导的IFN-β表达中的调控机制。A型流感病毒是全球性健康问题,其感染可导致严重的呼吸道疾病。IFN-β作为关键的抗病毒因子,其表达水平对抗病毒防御至关重要。然而,TRIM2如何调控IFN-β的表达尚未明确。本研究假设TRIM2通过与病毒RNA或宿主因子相互作用,影响IFN-β的产生。我们将采用分子生物学、细胞生物学和免疫学方法,探索TRIM2与A型流感病毒诱导IFN-β表达的关系。预期结果将揭示TRIM2在抗病毒免疫反应中的作用,为开发新的抗病毒策略提供理论基础。该研究对理解宿主抗病毒机制具有重要科学意义,并可能对临床治疗流感病毒感染提供新的视角。

AI项目思路:

科学问题:TRIM2如何调控A型流感病毒诱导的IFN-β表达?
前期研究:已有研究表明TRIM2参与抗病毒反应,但其具体机制尚不明确。
研究创新点:本研究将深入探讨TRIM2在IFN-β表达中的直接作用机制。
技术路线:包括病毒学、分子生物学、细胞培养和免疫检测技术。
关键技术:TRIM2与病毒RNA的相互作用分析,IFN-β启动子活性检测。
实验模型:使用A型流感病毒感染的细胞模型进行研究。

AI技术路线图

        graph TD
          A[研究起始] --> B[文献回顾与假设提出]
          B --> C[实验设计与方法学准备]
          C --> D[A型流感病毒感染模型建立]
          D --> E[TRIM2与病毒RNA相互作用分析]
          E --> F[TRIM2对IFN-β启动子活性的影响]
          F --> G[IFN-β表达水平测定]
          G --> H[TRIM2功能丧失与获得研究]
          H --> I[数据收集与分析]
          I --> J[结果解释与科学验证]
          J --> K[研究结论与未来方向]
          K --> L[研究结束]
      
关闭
close
客服二维码