基于模糊逻辑的大规模强化学习理论及方法
项目介绍
AI项目解读
基本信息
- 批准号:61472262
- 项目类别:面上项目
- 资助金额:82.0万
- 负责人:
- 依托单位:
- 学科分类:F0201.计算机科学的基础理论
- 结题年份:2018
- 批准年份:2014
- 项目状态:已结题
- 起止时间:2015-01-01 至2018-12-31
- 项目参与者:傅启明; 周小科; 徐进华; 钟珊; 王辉; 黄蔚; 穆翔; 尤树华;
- 关键词:
项目摘要
In allusion to the problem of "the curse of dimensionality" when dealing with reinforcement learning problems with large scale, this project puts forward several reinforcement learning methods based on type-1 and type-2 fuzzy logic. The main idea is to construct the neural fuzzy reinforcement learning models applied to the reinforcement learning problems with large scale, which combines the type-1 fuzzy inference, type-2 fuzzy inference and neural fuzzy inference with reinforcement learning methods.Using double layer fuzzy inference system or fuzzy inference system that based on neuro nuits to represent the features of state space, which can efficiently decrease the dimension of state space and increase the speed of convergence; Constructing a type-2 fuzzy reinforcement learning model based on type-2 fuzzy inference, which can improve the ability of handling uncertainty and be robust to noise; In order to improve the accuracy of Q value functions, the cross entropy optimization method is used to optimize the parameters of membership functions; Besides, the project plans to apply the proposed three methods to the algorithms used in the deep web, which can help solve the problems of slow convergence speed or non-convergenc caused by the high dimension of state space or the uncertainties of semantic information.
本项目针对在解决大规模强化学习问题时存在的"维数灾"问题,提出基于一型和二型模糊逻辑的强化学习方法。主要思想是将强化学习方法与一型、二型模糊逻辑和神经网络相结合,构建可用于大规模强化学习问题的神经模糊强化学习模型:⑴使用双层模糊推理系统或基于神经元的模糊推理系统对状态空间进行特征表示,可以有效的减少状态维数,加快强化学习算法的收敛速度;⑵构建基于二型模糊推理的二型模糊强化学习模型,进一步提高算法处理不确定性的能力以及对噪声干扰的鲁棒性;⑶采用交叉熵优化方法优化模糊强化学习模型的隶属度函数参数,以提高Q值函数的精确性。⑷将所构建的几个模糊强化学习系统用于大规模Deep Web网络信息搜索中,解决由于状态空间的高维性及语义信息的不确定性引起的Deep Web搜索中收敛速度慢甚至无法收敛的问题。
结项摘要
本项目针对在解决大规模强化学习在解决问题时存在的“维数灾”问题,提出基于一型和二型模糊逻辑的强化学习方法并应用于现实环境中。主要完成的工作包括:⑴使用双层模糊推理系统或基于神经元的模糊推理系统对状态空间进行特征表示,提出了带资格迹的双层模糊状态知识表示方法并构造出二型模糊推理的模糊推理器,通过知识表示和推理,不仅可以提高算法的收敛速度,还可以用于获取连续行为策略;⑵构建二型模糊推理的二型模糊强化学习模型,并证明了二型模糊逻辑在处理模糊性的能力方面要高于一型模糊逻辑,使用该推理器,在提高效率的同时,还可以增强对噪声干扰的鲁棒性;⑶采用交叉熵优化方法优化模糊强化学习模型的隶属度函数参数,先根据随机初始化的隶属度函数获得收敛的策略后,在使用此策略进行蒙特卡罗采样,以提高Q值函数的精确性。⑷在设计实现上述理论及优化算法的基础上,实现了系统原型,并应用于大规模Deep Web网络信息搜索中,解决由于状态空间的高维性及语义信息的不确定性引起的Deep Web搜索中收敛速度慢甚至无法收敛的问题。.该项目取得的重要结果包括以下几个方面:.(1) 将强化学习方法与模糊推理系统及神经元相结合。理论研究成果以论文及专利的形式发表。(2) 设计实现具有较高效率的基于新型模糊推理系统和神经模糊系统的强化学习仿真平台,并应用于Deep Web信息搜索中。(3) 在国际学术刊物、国际学术会议和国内权威期刊发表学术论文29篇,其中被SCI、EI收录20篇,撰写专著1部。.(4) 申报发明专利3项,申请软件著作权5项。(5) 培养博士研究生3名。毕业博士研究生1名、硕士研究生6名。
项目成果
期刊论文数量(20)
专著数量(1)
科研奖励数量(0)
会议论文数量(9)
专利数量(6)
具有程序的静态结构和动态行为语义的时序逻辑
- DOI:--
- 发表时间:2016
- 期刊:计算机研究与发展
- 影响因子:--
- 作者:陈冬火;刘全;金海东;朱斐;王辉
- 通讯作者:王辉
深度强化学习综述
- DOI:--
- 发表时间:2018
- 期刊:计算机学报
- 影响因子:--
- 作者:刘全;翟建伟;章宗长;周倩;章鹏;徐进
- 通讯作者:徐进
一种不稳定环境下的策略搜索及迁移方法
- DOI:--
- 发表时间:2017
- 期刊:电子学报
- 影响因子:--
- 作者:朱斐;刘全;傅启明;陈冬火;王辉;伏玉琛
- 通讯作者:伏玉琛
一种用于基于方面情感分析的深度分层网络模型
- DOI:--
- 发表时间:2018
- 期刊:计算机学报
- 影响因子:--
- 作者:刘全;梁斌;徐进;周倩
- 通讯作者:周倩
基于多注意力卷积神经网络的特定目标情感分析
- DOI:--
- 发表时间:2017
- 期刊:计算机研究与发展
- 影响因子:--
- 作者:梁斌;刘全;徐进;周倩;章鹏
- 通讯作者:章鹏
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--"}}
- 发表时间:{{ item.publish_year || "--" }}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--"}}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ patent.updateTime }}
其他文献
补体调节蛋白与IgA肾病
- DOI:10.3760/cma.j.issn.1674-4756.2013.12.059
- 发表时间:2013-06
- 期刊:中国实用医刊
- 影响因子:--
- 作者:刘全;邢国兰
- 通讯作者:邢国兰
犬贾第虫病毒(长春株)全基因组
- DOI:--
- 发表时间:--
- 期刊:畜牧兽医学报,2006,37(4):408-411
- 影响因子:--
- 作者:陈丽凤;李建华;张西臣*;刘全
- 通讯作者:刘全
双精英协同进化遗传算法
- DOI:--
- 发表时间:2012
- 期刊:软件学报
- 影响因子:--
- 作者:刘全;王晓燕;傅启明;张永刚;章晓芳
- 通讯作者:章晓芳
一种基于资格迹的并行强化学习算法
- DOI:--
- 发表时间:2012
- 期刊:苏州大学学报(自然科学版)
- 影响因子:--
- 作者:杨旭东;刘全;李瑾
- 通讯作者:李瑾
基于重要性采样的优势估计器
- DOI:--
- 发表时间:2019
- 期刊:通信学报
- 影响因子:--
- 作者:刘全;姜玉斌;胡智慧
- 通讯作者:胡智慧
其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--" }}
- 发表时间:{{ item.publish_year || "--"}}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--" }}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}

内容获取失败,请点击重试

查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:
AI项目摘要
AI项目思路
AI技术路线图

请为本次AI项目解读的内容对您的实用性打分
非常不实用
非常实用
1
2
3
4
5
6
7
8
9
10
您认为此功能如何分析更能满足您的需求,请填写您的反馈:
刘全的其他基金
面向大规模强化学习任务的预测控制理论与方法研究
- 批准号:62376179
- 批准年份:2023
- 资助金额:49 万元
- 项目类别:面上项目
基于部分感知模型的贝叶斯强化学习理论及方法
- 批准号:61772355
- 批准年份:2017
- 资助金额:65.0 万元
- 项目类别:面上项目
基于贝叶斯推理的模糊逻辑强化学习模型研究
- 批准号:61272005
- 批准年份:2012
- 资助金额:61.0 万元
- 项目类别:面上项目
面向tableau模型的逻辑强化学习理论及方法研究
- 批准号:61070223
- 批准年份:2010
- 资助金额:35.0 万元
- 项目类别:面上项目
近红外波段堆垛结构三维光子晶体的制备和研究
- 批准号:60907017
- 批准年份:2009
- 资助金额:22.0 万元
- 项目类别:青年科学基金项目
基于tableau的非经典逻辑经典化的自动定理证明研究
- 批准号:60873116
- 批准年份:2008
- 资助金额:35.0 万元
- 项目类别:面上项目
相似国自然基金
{{ item.name }}
- 批准号:{{ item.ratify_no }}
- 批准年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}
相似海外基金
{{
item.name }}
{{ item.translate_name }}
- 批准号:{{ item.ratify_no }}
- 财政年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}