基于贝叶斯推理的模糊逻辑强化学习模型研究

结题报告
项目介绍
AI项目解读

基本信息

  • 批准号:
    61272005
  • 项目类别:
    面上项目
  • 资助金额:
    61.0万
  • 负责人:
  • 依托单位:
  • 学科分类:
    F0201.计算机科学的基础理论
  • 结题年份:
    2016
  • 批准年份:
    2012
  • 项目状态:
    已结题
  • 起止时间:
    2013-01-01 至2016-12-31

项目摘要

In allusion to the problem of "the curse of dimensionality" and balancing the exploitation and exploration in reinforcement learning, the project put forward the fuzzy logical reinforcement learning based on bayesian inference. The main idea is combining the reinforcement learning, fuzzy logic and bayesian inference, which uses fuzzy logic method to represent the state, action and some other things, constructs a fuzzy inference system based on the distribution of state transition and reward got by bayesian inference, optimizes the action selection policy, balances the exploitation and exploration, and modifies the inference system adaptively to maximize the performance of the algorithm. And at the same time, the project plans to use the proposed method to solve the problem of slow convergence or non-convergence of the algorithm used in deep web, which is caused by the high dimension of state or the uncertainties of semantic information. Therefore, the research of the fuzzy logic reinforcement learning based on bayesian inference both has certain theoretical value and broad application prospects.
本项目拟针对强化学习领域在大规模状态空间中"维数灾"以及在学习过程中平衡探索与利用的问题,提出基于贝叶斯推理的模糊逻辑强化学习方法。主要思想是将强化学习与模糊逻辑及贝叶斯推理相结合,采用模糊逻辑方法表示状态、动作等方面的知识,结合贝叶斯推理描述模型中状态转移及奖赏值的分布性,建立一个模糊推理系统,优化学习过程中的动作选择策略,平衡动作选择的探索与利用的问题,并在学习过程中自适应修正推理系统,以达到更大程度提高强化学习算法延展性及收敛性的目的。同时,拟将模糊逻辑强化学习算法用于大规模Deep Web网络信息搜索中,解决由于状态空间的高维性及语义信息的不确定性引起的 Deep Web搜索中收敛速度慢甚至无法收敛的问题。因此,基于贝叶斯推理的模糊逻辑强化学习模型的研究,既具有一定的理论价值,又有广阔的应用前景。

结项摘要

本项目针对在大规模状态空间中“维数灾”以及在学习过程中平衡探索与利用的问题,提出基于一型和二型模糊逻辑的贝叶斯强化学习方法。主要思想是将强化学习方法与一型、二型模糊逻辑和神经网络相结合,构建可用于大规模强化学习问题的神经模糊强化学习模型:⑴使用双层模糊推理系统或基于神经元的模糊推理系统对状态空间进行特征表示,可以有效的减少状态维数,加快强化学习算法的收敛速度;⑵构建基于二型模糊推理的二型模糊强化学习模型,进一步提高算法处理不确定性的能力以及对噪声干扰的鲁棒性;⑶采用交叉熵优化方法优化模糊强化学习模型的隶属度函数参数,以提高Q值函数的精确性。⑷将所构建的几个模糊强化学习系统用于大规模Deep Web网络信息搜索中,解决由于状态空间的高维性及语义信息的不确定性引起的Deep Web搜索中收敛速度慢甚至无法收敛的问题。基于贝叶斯推理的模糊逻辑强化学习模型的研究,既有一定的理论价值,又有广阔的应用前景。

项目成果

期刊论文数量(40)
专著数量(1)
科研奖励数量(0)
会议论文数量(5)
专利数量(0)
A sarsa algorithm based on double-layer fuzzy reasoning
一种基于双层模糊推理的sarsa算法
  • DOI:
    --
  • 发表时间:
    2013
  • 期刊:
    Mathematical Problems in Engineering
  • 影响因子:
    --
  • 作者:
    Liu Quan
  • 通讯作者:
    Liu Quan
一种批量最小二乘策略迭代方法
  • DOI:
    --
  • 发表时间:
    2014
  • 期刊:
    计算机科学
  • 影响因子:
    --
  • 作者:
    周鑫;刘全;傅启明;肖飞
  • 通讯作者:
    肖飞
Human-level moving object recognition from traffic video
交通视频中的人体级移动物体识别
  • DOI:
    10.2298/csis141114026z
  • 发表时间:
    2014
  • 期刊:
    Computer Science and Information Systems
  • 影响因子:
    1.4
  • 作者:
    Zhu Fei; *Liu Quan; Zhong Shan; Yang Yang
  • 通讯作者:
    Yang Yang
一种二阶TD Error快速Q(λ)算法
  • DOI:
    --
  • 发表时间:
    2013
  • 期刊:
    模式识别与人工智能
  • 影响因子:
    --
  • 作者:
    孙洪坤;高龙;李瑾;王辉
  • 通讯作者:
    王辉
基于自适应归一化RBF网络的Q-V值函数协同逼近模型
  • DOI:
    --
  • 发表时间:
    2015
  • 期刊:
    计算机学报
  • 影响因子:
    --
  • 作者:
    傅启明;伏玉琛;周小科;朱斐
  • 通讯作者:
    朱斐

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--"}}
  • 发表时间:
    {{ item.publish_year || "--" }}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--"}}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ patent.updateTime }}

其他文献

具有程序的静态结构和动态行为语义的时序逻辑
  • DOI:
    10.1103/physrevlett.98.239903
  • 发表时间:
    2016
  • 期刊:
    计算机研究与发展
  • 影响因子:
    --
  • 作者:
    陈冬火;刘全;金海东;朱斐;王辉
  • 通讯作者:
    王辉
一种优先级扫描的Dyna结构优化算法
  • DOI:
    10.1007/s11104-017-3275-0
  • 发表时间:
    2013
  • 期刊:
    计算机研究与发展
  • 影响因子:
    --
  • 作者:
    孙洪坤;刘全;傅启明;肖飞;高龙
  • 通讯作者:
    高龙
爆轰波在炸药-金属界面上的折射分析
  • DOI:
    --
  • 发表时间:
    2015
  • 期刊:
    物理学报
  • 影响因子:
    --
  • 作者:
    于明;孙宇涛;刘全
  • 通讯作者:
    刘全
高钢板桩围堰桩格与混凝土边墙衔接法施工及效果
  • DOI:
    --
  • 发表时间:
    2016
  • 期刊:
    水电能源科学
  • 影响因子:
    --
  • 作者:
    杨锐婷;柏胜平;孔令富;伍夕国;贺昌海;刘全
  • 通讯作者:
    刘全
Z箍缩内爆的MARED程序1维模拟分析
  • DOI:
    --
  • 发表时间:
    --
  • 期刊:
    强激光与粒子束
  • 影响因子:
    --
  • 作者:
    刘全;戴自换;张扬;丁宁;符尚武;杨震华;束小建;宁成;邬吉明
  • 通讯作者:
    邬吉明

其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--" }}
  • 发表时间:
    {{ item.publish_year || "--"}}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--" }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}
empty
内容获取失败,请点击重试
重试联系客服
title开始分析
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:

AI项目思路

AI技术路线图

刘全的其他基金

面向大规模强化学习任务的预测控制理论与方法研究
  • 批准号:
    62376179
  • 批准年份:
    2023
  • 资助金额:
    49 万元
  • 项目类别:
    面上项目
基于部分感知模型的贝叶斯强化学习理论及方法
  • 批准号:
    61772355
  • 批准年份:
    2017
  • 资助金额:
    65.0 万元
  • 项目类别:
    面上项目
基于模糊逻辑的大规模强化学习理论及方法
  • 批准号:
    61472262
  • 批准年份:
    2014
  • 资助金额:
    82.0 万元
  • 项目类别:
    面上项目
面向tableau模型的逻辑强化学习理论及方法研究
  • 批准号:
    61070223
  • 批准年份:
    2010
  • 资助金额:
    35.0 万元
  • 项目类别:
    面上项目
近红外波段堆垛结构三维光子晶体的制备和研究
  • 批准号:
    60907017
  • 批准年份:
    2009
  • 资助金额:
    22.0 万元
  • 项目类别:
    青年科学基金项目
基于tableau的非经典逻辑经典化的自动定理证明研究
  • 批准号:
    60873116
  • 批准年份:
    2008
  • 资助金额:
    35.0 万元
  • 项目类别:
    面上项目

相似国自然基金

{{ item.name }}
  • 批准号:
    {{ item.ratify_no }}
  • 批准年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}

相似海外基金

{{ item.name }}
{{ item.translate_name }}
  • 批准号:
    {{ item.ratify_no }}
  • 财政年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了

AI项目解读示例

课题项目:调控A型流感病毒诱导IFN-β表达的机制研究

AI项目摘要:

本研究聚焦于TRIM2蛋白在A型流感病毒诱导的IFN-β表达中的调控机制。A型流感病毒是全球性健康问题,其感染可导致严重的呼吸道疾病。IFN-β作为关键的抗病毒因子,其表达水平对抗病毒防御至关重要。然而,TRIM2如何调控IFN-β的表达尚未明确。本研究假设TRIM2通过与病毒RNA或宿主因子相互作用,影响IFN-β的产生。我们将采用分子生物学、细胞生物学和免疫学方法,探索TRIM2与A型流感病毒诱导IFN-β表达的关系。预期结果将揭示TRIM2在抗病毒免疫反应中的作用,为开发新的抗病毒策略提供理论基础。该研究对理解宿主抗病毒机制具有重要科学意义,并可能对临床治疗流感病毒感染提供新的视角。

AI项目思路:

科学问题:TRIM2如何调控A型流感病毒诱导的IFN-β表达?
前期研究:已有研究表明TRIM2参与抗病毒反应,但其具体机制尚不明确。
研究创新点:本研究将深入探讨TRIM2在IFN-β表达中的直接作用机制。
技术路线:包括病毒学、分子生物学、细胞培养和免疫检测技术。
关键技术:TRIM2与病毒RNA的相互作用分析,IFN-β启动子活性检测。
实验模型:使用A型流感病毒感染的细胞模型进行研究。

AI技术路线图

        graph TD
          A[研究起始] --> B[文献回顾与假设提出]
          B --> C[实验设计与方法学准备]
          C --> D[A型流感病毒感染模型建立]
          D --> E[TRIM2与病毒RNA相互作用分析]
          E --> F[TRIM2对IFN-β启动子活性的影响]
          F --> G[IFN-β表达水平测定]
          G --> H[TRIM2功能丧失与获得研究]
          H --> I[数据收集与分析]
          I --> J[结果解释与科学验证]
          J --> K[研究结论与未来方向]
          K --> L[研究结束]
      
关闭
close
客服二维码