强化学习迁移技术及其在交互式游戏中的应用研究
项目介绍
AI项目解读
基本信息
- 批准号:61175042
- 项目类别:面上项目
- 资助金额:58.0万
- 负责人:
- 依托单位:
- 学科分类:F0305.生物、医学信息系统与技术
- 结题年份:2015
- 批准年份:2011
- 项目状态:已结题
- 起止时间:2012-01-01 至2015-12-31
- 项目参与者:曹迎春; 余永红; 陈兴国; 史颖欢; 金龑; 江凯; 顾小东; 付强;
- 关键词:
项目摘要
在强化学习迁移技术中,研究出针对单源、多源、跨域、多Agent强化学习迁移的若干模型和相关算法。采用多示例学习、分层强化学习、强化学习函数估计、关系强化学习等具体研究手段,实现以上强化学习迁移算法。并利用算法信息理论对部分的迁移方法进行理论证明。将以上方法应用到交互式游戏领域中,实现游戏在规模变化、任务变化和角色变换时的强化学习迁移。.基于所研究成果,将在国际学术刊物、国际一流学术会议和国内一级刊物上发表论文15-20篇;申请专利3-4项;并使本课题在强化学习迁移技术方面的研究在国际上处于领先水平。
结项摘要
本课题针对现有的强化学习迁移技术存在的问题,重关注强化学习迁移技术模型、算法及应用。在本课题中,我们从强化学习迁移目标、强化学习迁移方法、强化学习迁移应用三个角度加以研究,并研究评价准则的适用性和相关迁移方法的理论证明。具体地,本课题在学习任务相似性度量、多智能体强化学习迁移方法、平均奖赏强化学习中迁移方法、基于核函数估计的强化学习等方面进行了深入的研究工作,这其中包括:(1)基于bisimulation状态距离的任务相似度度量方法及其迁移学习方法;(2)基于常数奖赏偏移值的学习算法;(3)基于核函数估计的在线选择性时间差分学习方法;(4)多智能体强化学习中的均衡迁移方法;(5)稀疏交互的多智能体系统中任务间相似度度量方法及其知识迁移方法;(6)本课题所提出的理论方法在俄罗斯方块、吃豆子等游戏中的应用。基于以上的研究工作,本课题共发表学术论文32篇,其中CCF-A类论文3篇,CCF-B类论文7篇,CCF-C类论文3篇,国内核心期刊论文9篇。
项目成果
期刊论文数量(32)
专著数量(0)
科研奖励数量(0)
会议论文数量(11)
专利数量(0)
基于分布相似度迁移的关键路由设备检测
- DOI:--
- 发表时间:2014
- 期刊:计算机科学
- 影响因子:--
- 作者:孟庆锴;张剡;杨琬琪;胡裕靖;史颖欢;潘红兵;王浩
- 通讯作者:王浩
一种基于MapReduce的频繁闭项集挖掘算法
- DOI:--
- 发表时间:2012
- 期刊:模式识别与人工智能
- 影响因子:--
- 作者:陈光鹏;杨育彬;高阳;商琳
- 通讯作者:商琳
Accelerating Multiagent Reinforcement Learning by Equilibrium Transfer
通过平衡迁移加速多智能体强化学习
- DOI:10.1109/tcyb.2014.2349152
- 发表时间:2015-07
- 期刊:IEEE Transactions on Cybernetics
- 影响因子:11.8
- 作者:Yujing Hu;Yang Gao;Bo An
- 通讯作者:Bo An
面向服务的云数据挖掘引擎的研究
- DOI:--
- 发表时间:2012
- 期刊:计算机科学与探索
- 影响因子:--
- 作者:向晓军;高阳;商琳;杨育彬
- 通讯作者:杨育彬
A Local Anomaly Detection Framework Based on Trajectory Segmentation and Multi-instance Learning
基于轨迹分割和多实例学习的局部异常检测框架
- DOI:--
- 发表时间:--
- 期刊:Computer Vision and Image Understanding
- 影响因子:4.5
- 作者:Wanqi Yang;Yang Gao;Longbing Cao
- 通讯作者:Longbing Cao
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--"}}
- 发表时间:{{ item.publish_year || "--" }}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--"}}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ patent.updateTime }}
其他文献
番茄褪绿病毒病预测预报模型的建立
- DOI:10.16688/j.zwbh.2020029
- 发表时间:2021
- 期刊:植物保护
- 影响因子:--
- 作者:卢丁伊慧;张战泓;张卓;张德咏;谭新球;郑立敏;高阳;史晓斌;刘勇
- 通讯作者:刘勇
罩棚与低矮建筑表面风压相互干扰影响规律
- DOI:10.13582/j.cnki.1672-9102.2016.03.009
- 发表时间:2016
- 期刊:湖南科技大学学报(自然科学版)
- 影响因子:--
- 作者:戴益民;蒋荣正;高阳;彭望;邹思敏;刘也
- 通讯作者:刘也
HLA基因与新疆维吾尔族癫痫患者中拉莫三嗪所致药疹的关联性
- DOI:10.13699/j.cnki.1001-6821.2016.04.012
- 发表时间:2016
- 期刊:中国临床药理学杂志
- 影响因子:--
- 作者:高阳;于爱平;蒋玉凤;于鲁海;赵宗峰;张艳君
- 通讯作者:张艳君
桑菊饮治疗喉源性咳嗽Meta分析
- DOI:10.13359/j.cnki.gzxbtcm.2019.12.036
- 发表时间:2019
- 期刊:广州中医药大学学报
- 影响因子:--
- 作者:杨培培;黄卓燕;李艺;张勉;冯纬纭;高阳;廖巍
- 通讯作者:廖巍
基于滑动窗口均值先验的非同构动态贝叶斯网络转换点检测算法
- DOI:10.16451/j.cnki.issn1003-6059.201608010
- 发表时间:2016
- 期刊:模式识别与人工智能
- 影响因子:--
- 作者:俞露;高阳;史颖欢
- 通讯作者:史颖欢
其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--" }}
- 发表时间:{{ item.publish_year || "--"}}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--" }}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
内容获取失败,请点击重试
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:
AI项目摘要
AI项目思路
AI技术路线图
请为本次AI项目解读的内容对您的实用性打分
非常不实用
非常实用
1
2
3
4
5
6
7
8
9
10
您认为此功能如何分析更能满足您的需求,请填写您的反馈:
高阳的其他基金
面向大数据的知识表示、推理、在线学习理论及应用研究
- 批准号:U1435214
- 批准年份:2014
- 资助金额:150.0 万元
- 项目类别:联合基金项目
面向大数据的知识表示、推理、在线学习理论及应用研究
- 批准号:61432008
- 批准年份:2014
- 资助金额:350.0 万元
- 项目类别:重点项目
新型强化学习算法及应用研究
- 批准号:60775046
- 批准年份:2007
- 资助金额:27.0 万元
- 项目类别:面上项目
非马尔可夫决策过程中强化学习技术研究与应用
- 批准号:60475026
- 批准年份:2004
- 资助金额:23.0 万元
- 项目类别:面上项目
多Agent信念修正理论研究
- 批准号:60103012
- 批准年份:2001
- 资助金额:18.0 万元
- 项目类别:青年科学基金项目
相似国自然基金
{{ item.name }}
- 批准号:{{ item.ratify_no }}
- 批准年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}
相似海外基金
{{
item.name }}
{{ item.translate_name }}
- 批准号:{{ item.ratify_no }}
- 财政年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}