面向高动态环境的强化学习策略搜索理论与方法研究

结题报告
项目介绍
AI项目解读

基本信息

  • 批准号:
    61876077
  • 项目类别:
    面上项目
  • 资助金额:
    64.0万
  • 负责人:
  • 依托单位:
  • 学科分类:
    F0603.机器学习
  • 结题年份:
    2022
  • 批准年份:
    2018
  • 项目状态:
    已结题
  • 起止时间:
    2019-01-01 至2022-12-31

项目摘要

Reinforcement learning plays a key role in achieving the goal of autonomous decision making, which is a core research subfield of machine learning. Classical reinforcement learning relies on the assumption of static environment, which disables the previous approaches in real-world applications involved in high-dynamic environments. This proposal targets the challenges of reinforcement learning in high-dynamic environments, mainly including complex learning objectives, fluctuating parameters of environments, adversarial rewarding mechanisms, and high evaluation costs. We plan to develop highly efficient derivative-free optimization methods for complex policy search tasks, design reusable reinforcement modeling approach for fitting fluctuating environments, propose adversarial policy search methods tackling competitive rewards, and investigate low-cost reinforcement learning algorithms through utilizing multi-fidelity simulators. We will integrate our research in these directions as a systematic methodology for reinforcement learning in high-dynamic environments, as well as develop an open-source algorithm library, which will support advanced defense and enterprise applications that we are involved in. This project will deliver 8 to 10 papers published in IEEE Trans., CCF-A level avenues, domestic top journals and alike, 2 to 3 domestic patents, and will also support several graduate students.
强化学习是实现智能自主决策的核心研究领域之一,是机器学习的重要分支领域。然而经典强化学习方法隐含的静态环境假设,使其难以适应实际应用所处的高动态环境。本项目针对高动态环境中强化学习面临的主要挑战,包括复杂的学习目标、波动的环境参数、竞争的奖赏机制、高昂的评估代价等,研究策略搜索理论与方法:发展面向复杂策略搜索的高效非梯度优化方法、设计适应环境波动的可重用强化学习建模方法、提出有效处理竞争性奖赏的对抗策略搜索方法、探索构建和利用多保真度环境的低代价强化学习方法。整合研究工作,形成面相高 动态环境的策略搜索理论体系、开发算法库,为国防与企业应用提供支持。计划在IEEE Trans、CCF-A类级别国际期刊和会议、国内一级学报发表论文8-10篇,申请专利2-3项,培养研究生多名。

结项摘要

强化学习是实现智能自主决策的核心研究领域之一,是机器学习的重要分支领域。然而经典强化学习方法隐含的静态环境假设,使其难以适应实际应用所处的高动态环境。本项目针对高动态环境中强化学习面临的主要挑战,包括复杂的学习目标、波动的环境参数、竞争的奖赏机制、高昂的评估代价等,研究策略搜索理论与方法。在理论基础方面,项目成果突破了以往认为环境学习必然遭受平方级的累积误差的领域认知,将误差的数学上界降至线性,使得环境学习成为可行技术路径;分析了最优回放样本池权重的构成,揭示了以往回放样本利用的非最优性;证明了最大化最终回报的Bandit算法可具有平均回报算法相同的样本效率。在算法方面,提出了基于对抗模仿学习的环境学习方法,验证了零试错代价强化学习的可能;探索了多种可应对环境变化的信息复用强化学习算法,可处理观测空间、转移函数等环境因素的变化;提出了在非子模问题上依然有效的非梯度优化算法。在应用方面,基于对抗模仿学习的环境学习与强化学习技术路线在淘宝、滴滴等场景验证了有效性;在推荐系统的应用工作,推动了强化学习在推荐系统领域的发展;构建了离线强化学习评测基准,强调了在真实任务中强化学习技术需关注的问题。以上成果发表论文24篇,其中,国际会议18篇(包括顶级国际会议NeurIPS、AAAI、IJCAI、KDD等CCF-A类会议16篇),国际期刊6篇,包括一流国际期刊《Artificial Intelligence》、《IEEE Transactions on Pattern Analysis and Machine Intelligence》等;项目所发表论文目前累计被引用超过470次;发表专著一部。申请国家发明专利3项,其中1项已获得授权。项目团队获得ICAPS'21 L2RPN with Trust 2021 强化学习电网控制全球算法比赛冠军。项目负责人获得CCF-IEEE CS青年科学家奖,培养的博士生获得江苏省人工智能学会优秀博士论文奖和南京大学优秀博士学位论文奖。

项目成果

期刊论文数量(6)
专著数量(1)
科研奖励数量(2)
会议论文数量(18)
专利数量(3)
Running Time Analysis of the (1+1)-EA for Robust Linear Optimization.
用于鲁棒线性优化的 (1 1)-EA 的运行时间分析。
  • DOI:
    --
  • 发表时间:
    2020
  • 期刊:
    Theoretical Computer Science
  • 影响因子:
    1.1
  • 作者:
    Chao Bian;Chao Qian;Ke Tang;Yang Yu
  • 通讯作者:
    Yang Yu
Efficient reinforcement learning for StarCraft by abstract forward models and transfer learning
通过抽象前向模型和迁移学习实现星际争霸的高效强化学习
  • DOI:
    --
  • 发表时间:
    2022
  • 期刊:
    IEEE Transactions on Games
  • 影响因子:
    2.3
  • 作者:
    Ruo-Ze Liu;Haifeng Guo;Xiaozhong Ji;Yang Yu;Zhen-Jia Pang;Zitai Xiao;Yuzhou Wu;Tong Lu
  • 通讯作者:
    Tong Lu
Cascaded Algorithm Selection With Extreme-Region UCB Bandit
极端区域 UCB Bandit 的级联算法选择
  • DOI:
    10.1109/tpami.2021.3094844
  • 发表时间:
    2022
  • 期刊:
    IEEE Transactions on Pattern Analysis and Machine Intelligence, CCF-A
  • 影响因子:
    --
  • 作者:
    Yi-Qi Hu;Xu-Hui Liu;Shu-Qiao Li;Yang Yu
  • 通讯作者:
    Yang Yu
Maximizing submodular or monotone approximately submodular functions by multi-objective evolutionary algorithms
通过多目标进化算法最大化子模或单调近似子模函数
  • DOI:
    10.1016/j.artint.2019.06.005
  • 发表时间:
    2019
  • 期刊:
    Artificial Intelligence, CCF-A
  • 影响因子:
    --
  • 作者:
    Qian Chao;Yu Yang;Tang Ke;Yao Xin;Zhou Zhi Hua
  • 通讯作者:
    Zhou Zhi Hua
Improve generated adversarial imitation learning with reward variance regularization
通过奖励方差正则化改进生成的对抗性模仿学习
  • DOI:
    10.1007/s10994-021-06083-7
  • 发表时间:
    2022
  • 期刊:
    Machine Learning
  • 影响因子:
    7.5
  • 作者:
    Yi‑Feng Zhang;Fan‑Ming Luo;Yang Yu
  • 通讯作者:
    Yang Yu

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--"}}
  • 发表时间:
    {{ item.publish_year || "--" }}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--"}}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ patent.updateTime }}

其他文献

幼猪脊柱侧凸模型中椎体与椎间盘楔形变的进展规律及其意义
  • DOI:
    --
  • 发表时间:
    2013
  • 期刊:
    中国脊柱脊髓杂志
  • 影响因子:
    --
  • 作者:
    朱泽章;王斌;俞扬;吴涛
  • 通讯作者:
    吴涛
Analyzing Evolutionary Optimization in Noisy Environments
分析噪声环境中的进化优化
  • DOI:
    10.1162/evco_a_00170
  • 发表时间:
    --
  • 期刊:
    Evolutionary Computation
  • 影响因子:
    6.8
  • 作者:
    Chao Qian;俞扬;周志华
  • 通讯作者:
    周志华
改进的非等间距灰色模型在大坝位移预测中的应用
  • DOI:
    --
  • 发表时间:
    2017
  • 期刊:
    长江科学院院报
  • 影响因子:
    --
  • 作者:
    俞艳玲;郑东健;俞扬;居艳阳;方正
  • 通讯作者:
    方正
强化学习及其在电脑围棋中的应用
  • DOI:
    --
  • 发表时间:
    2016
  • 期刊:
    自动化学报
  • 影响因子:
    --
  • 作者:
    陈兴国;俞扬
  • 通讯作者:
    俞扬
On the Effectiveness of Sampling for Evolutionary Optimization in Noisy Environments
噪声环境中进化优化采样的有效性
  • DOI:
    --
  • 发表时间:
    --
  • 期刊:
    Evolutionary Computation
  • 影响因子:
    6.8
  • 作者:
    Chao Qian;俞扬;Ke Tang;Yaochu Jin;Xin Yao;周志华
  • 通讯作者:
    周志华

其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--" }}
  • 发表时间:
    {{ item.publish_year || "--"}}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--" }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}
empty
内容获取失败,请点击重试
重试联系客服
title开始分析
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:

AI项目思路

AI技术路线图

俞扬的其他基金

面向非限定条件的演化强化学习理论与算法研究
  • 批准号:
    61375061
  • 批准年份:
    2013
  • 资助金额:
    79.0 万元
  • 项目类别:
    面上项目

相似国自然基金

{{ item.name }}
  • 批准号:
    {{ item.ratify_no }}
  • 批准年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}

相似海外基金

{{ item.name }}
{{ item.translate_name }}
  • 批准号:
    {{ item.ratify_no }}
  • 财政年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了

AI项目解读示例

课题项目:调控A型流感病毒诱导IFN-β表达的机制研究

AI项目摘要:

本研究聚焦于TRIM2蛋白在A型流感病毒诱导的IFN-β表达中的调控机制。A型流感病毒是全球性健康问题,其感染可导致严重的呼吸道疾病。IFN-β作为关键的抗病毒因子,其表达水平对抗病毒防御至关重要。然而,TRIM2如何调控IFN-β的表达尚未明确。本研究假设TRIM2通过与病毒RNA或宿主因子相互作用,影响IFN-β的产生。我们将采用分子生物学、细胞生物学和免疫学方法,探索TRIM2与A型流感病毒诱导IFN-β表达的关系。预期结果将揭示TRIM2在抗病毒免疫反应中的作用,为开发新的抗病毒策略提供理论基础。该研究对理解宿主抗病毒机制具有重要科学意义,并可能对临床治疗流感病毒感染提供新的视角。

AI项目思路:

科学问题:TRIM2如何调控A型流感病毒诱导的IFN-β表达?
前期研究:已有研究表明TRIM2参与抗病毒反应,但其具体机制尚不明确。
研究创新点:本研究将深入探讨TRIM2在IFN-β表达中的直接作用机制。
技术路线:包括病毒学、分子生物学、细胞培养和免疫检测技术。
关键技术:TRIM2与病毒RNA的相互作用分析,IFN-β启动子活性检测。
实验模型:使用A型流感病毒感染的细胞模型进行研究。

AI技术路线图

        graph TD
          A[研究起始] --> B[文献回顾与假设提出]
          B --> C[实验设计与方法学准备]
          C --> D[A型流感病毒感染模型建立]
          D --> E[TRIM2与病毒RNA相互作用分析]
          E --> F[TRIM2对IFN-β启动子活性的影响]
          F --> G[IFN-β表达水平测定]
          G --> H[TRIM2功能丧失与获得研究]
          H --> I[数据收集与分析]
          I --> J[结果解释与科学验证]
          J --> K[研究结论与未来方向]
          K --> L[研究结束]
      
关闭
close
客服二维码