强化学习迁移技术及其在交互式游戏中的应用研究

结题报告
项目介绍
AI项目解读

基本信息

  • 批准号:
    61175042
  • 项目类别:
    面上项目
  • 资助金额:
    58.0万
  • 负责人:
  • 依托单位:
  • 学科分类:
    F0305.生物、医学信息系统与技术
  • 结题年份:
    2015
  • 批准年份:
    2011
  • 项目状态:
    已结题
  • 起止时间:
    2012-01-01 至2015-12-31

项目摘要

在强化学习迁移技术中,研究出针对单源、多源、跨域、多Agent强化学习迁移的若干模型和相关算法。采用多示例学习、分层强化学习、强化学习函数估计、关系强化学习等具体研究手段,实现以上强化学习迁移算法。并利用算法信息理论对部分的迁移方法进行理论证明。将以上方法应用到交互式游戏领域中,实现游戏在规模变化、任务变化和角色变换时的强化学习迁移。.基于所研究成果,将在国际学术刊物、国际一流学术会议和国内一级刊物上发表论文15-20篇;申请专利3-4项;并使本课题在强化学习迁移技术方面的研究在国际上处于领先水平。

结项摘要

本课题针对现有的强化学习迁移技术存在的问题,重关注强化学习迁移技术模型、算法及应用。在本课题中,我们从强化学习迁移目标、强化学习迁移方法、强化学习迁移应用三个角度加以研究,并研究评价准则的适用性和相关迁移方法的理论证明。具体地,本课题在学习任务相似性度量、多智能体强化学习迁移方法、平均奖赏强化学习中迁移方法、基于核函数估计的强化学习等方面进行了深入的研究工作,这其中包括:(1)基于bisimulation状态距离的任务相似度度量方法及其迁移学习方法;(2)基于常数奖赏偏移值的学习算法;(3)基于核函数估计的在线选择性时间差分学习方法;(4)多智能体强化学习中的均衡迁移方法;(5)稀疏交互的多智能体系统中任务间相似度度量方法及其知识迁移方法;(6)本课题所提出的理论方法在俄罗斯方块、吃豆子等游戏中的应用。基于以上的研究工作,本课题共发表学术论文32篇,其中CCF-A类论文3篇,CCF-B类论文7篇,CCF-C类论文3篇,国内核心期刊论文9篇。

项目成果

期刊论文数量(32)
专著数量(0)
科研奖励数量(0)
会议论文数量(11)
专利数量(0)
基于分布相似度迁移的关键路由设备检测
  • DOI:
    --
  • 发表时间:
    2014
  • 期刊:
    计算机科学
  • 影响因子:
    --
  • 作者:
    孟庆锴;张剡;杨琬琪;胡裕靖;史颖欢;潘红兵;王浩
  • 通讯作者:
    王浩
一种基于MapReduce的频繁闭项集挖掘算法
  • DOI:
    --
  • 发表时间:
    2012
  • 期刊:
    模式识别与人工智能
  • 影响因子:
    --
  • 作者:
    陈光鹏;杨育彬;高阳;商琳
  • 通讯作者:
    商琳
Accelerating Multiagent Reinforcement Learning by Equilibrium Transfer
通过平衡迁移加速多智能体强化学习
  • DOI:
    10.1109/tcyb.2014.2349152
  • 发表时间:
    2015-07
  • 期刊:
    IEEE Transactions on Cybernetics
  • 影响因子:
    11.8
  • 作者:
    Yujing Hu;Yang Gao;Bo An
  • 通讯作者:
    Bo An
面向服务的云数据挖掘引擎的研究
  • DOI:
    --
  • 发表时间:
    2012
  • 期刊:
    计算机科学与探索
  • 影响因子:
    --
  • 作者:
    向晓军;高阳;商琳;杨育彬
  • 通讯作者:
    杨育彬
A Local Anomaly Detection Framework Based on Trajectory Segmentation and Multi-instance Learning
基于轨迹分割和多实例学习的局部异常检测框架
  • DOI:
    --
  • 发表时间:
    --
  • 期刊:
    Computer Vision and Image Understanding
  • 影响因子:
    4.5
  • 作者:
    Wanqi Yang;Yang Gao;Longbing Cao
  • 通讯作者:
    Longbing Cao

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--"}}
  • 发表时间:
    {{ item.publish_year || "--" }}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--"}}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ patent.updateTime }}

其他文献

番茄褪绿病毒病预测预报模型的建立
  • DOI:
    10.16688/j.zwbh.2020029
  • 发表时间:
    2021
  • 期刊:
    植物保护
  • 影响因子:
    --
  • 作者:
    卢丁伊慧;张战泓;张卓;张德咏;谭新球;郑立敏;高阳;史晓斌;刘勇
  • 通讯作者:
    刘勇
罩棚与低矮建筑表面风压相互干扰影响规律
  • DOI:
    10.13582/j.cnki.1672-9102.2016.03.009
  • 发表时间:
    2016
  • 期刊:
    湖南科技大学学报(自然科学版)
  • 影响因子:
    --
  • 作者:
    戴益民;蒋荣正;高阳;彭望;邹思敏;刘也
  • 通讯作者:
    刘也
HLA基因与新疆维吾尔族癫痫患者中拉莫三嗪所致药疹的关联性
  • DOI:
    10.13699/j.cnki.1001-6821.2016.04.012
  • 发表时间:
    2016
  • 期刊:
    中国临床药理学杂志
  • 影响因子:
    --
  • 作者:
    高阳;于爱平;蒋玉凤;于鲁海;赵宗峰;张艳君
  • 通讯作者:
    张艳君
桑菊饮治疗喉源性咳嗽Meta分析
  • DOI:
    10.13359/j.cnki.gzxbtcm.2019.12.036
  • 发表时间:
    2019
  • 期刊:
    广州中医药大学学报
  • 影响因子:
    --
  • 作者:
    杨培培;黄卓燕;李艺;张勉;冯纬纭;高阳;廖巍
  • 通讯作者:
    廖巍
基于滑动窗口均值先验的非同构动态贝叶斯网络转换点检测算法
  • DOI:
    10.16451/j.cnki.issn1003-6059.201608010
  • 发表时间:
    2016
  • 期刊:
    模式识别与人工智能
  • 影响因子:
    --
  • 作者:
    俞露;高阳;史颖欢
  • 通讯作者:
    史颖欢

其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--" }}
  • 发表时间:
    {{ item.publish_year || "--"}}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--" }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}
empty
内容获取失败,请点击重试
重试联系客服
title开始分析
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:

AI项目思路

AI技术路线图

高阳的其他基金

面向大数据的知识表示、推理、在线学习理论及应用研究
  • 批准号:
    U1435214
  • 批准年份:
    2014
  • 资助金额:
    150.0 万元
  • 项目类别:
    联合基金项目
面向大数据的知识表示、推理、在线学习理论及应用研究
  • 批准号:
    61432008
  • 批准年份:
    2014
  • 资助金额:
    350.0 万元
  • 项目类别:
    重点项目
新型强化学习算法及应用研究
  • 批准号:
    60775046
  • 批准年份:
    2007
  • 资助金额:
    27.0 万元
  • 项目类别:
    面上项目
非马尔可夫决策过程中强化学习技术研究与应用
  • 批准号:
    60475026
  • 批准年份:
    2004
  • 资助金额:
    23.0 万元
  • 项目类别:
    面上项目
多Agent信念修正理论研究
  • 批准号:
    60103012
  • 批准年份:
    2001
  • 资助金额:
    18.0 万元
  • 项目类别:
    青年科学基金项目

相似国自然基金

{{ item.name }}
  • 批准号:
    {{ item.ratify_no }}
  • 批准年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}

相似海外基金

{{ item.name }}
{{ item.translate_name }}
  • 批准号:
    {{ item.ratify_no }}
  • 财政年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了

AI项目解读示例

课题项目:调控A型流感病毒诱导IFN-β表达的机制研究

AI项目摘要:

本研究聚焦于TRIM2蛋白在A型流感病毒诱导的IFN-β表达中的调控机制。A型流感病毒是全球性健康问题,其感染可导致严重的呼吸道疾病。IFN-β作为关键的抗病毒因子,其表达水平对抗病毒防御至关重要。然而,TRIM2如何调控IFN-β的表达尚未明确。本研究假设TRIM2通过与病毒RNA或宿主因子相互作用,影响IFN-β的产生。我们将采用分子生物学、细胞生物学和免疫学方法,探索TRIM2与A型流感病毒诱导IFN-β表达的关系。预期结果将揭示TRIM2在抗病毒免疫反应中的作用,为开发新的抗病毒策略提供理论基础。该研究对理解宿主抗病毒机制具有重要科学意义,并可能对临床治疗流感病毒感染提供新的视角。

AI项目思路:

科学问题:TRIM2如何调控A型流感病毒诱导的IFN-β表达?
前期研究:已有研究表明TRIM2参与抗病毒反应,但其具体机制尚不明确。
研究创新点:本研究将深入探讨TRIM2在IFN-β表达中的直接作用机制。
技术路线:包括病毒学、分子生物学、细胞培养和免疫检测技术。
关键技术:TRIM2与病毒RNA的相互作用分析,IFN-β启动子活性检测。
实验模型:使用A型流感病毒感染的细胞模型进行研究。

AI技术路线图

        graph TD
          A[研究起始] --> B[文献回顾与假设提出]
          B --> C[实验设计与方法学准备]
          C --> D[A型流感病毒感染模型建立]
          D --> E[TRIM2与病毒RNA相互作用分析]
          E --> F[TRIM2对IFN-β启动子活性的影响]
          F --> G[IFN-β表达水平测定]
          G --> H[TRIM2功能丧失与获得研究]
          H --> I[数据收集与分析]
          I --> J[结果解释与科学验证]
          J --> K[研究结论与未来方向]
          K --> L[研究结束]
      
关闭
close
客服二维码