面向tableau模型的逻辑强化学习理论及方法研究

结题报告
项目介绍
AI项目解读

基本信息

  • 批准号:
    61070223
  • 项目类别:
    面上项目
  • 资助金额:
    35.0万
  • 负责人:
  • 依托单位:
  • 学科分类:
    F0201.计算机科学的基础理论
  • 结题年份:
    2013
  • 批准年份:
    2010
  • 项目状态:
    已结题
  • 起止时间:
    2011-01-01 至2013-12-31

项目摘要

典型的强化学习算法采用状态- - 活动对来表示行为策略,因而不可避免地出现学习参数个数随着状态变量维数呈指数级增长的现象,即"维数灾",这一问题严重制约着强化学习在实际中的应用。本项目拟针对强化学习中存在"维数灾"的问题,提出面向tableau模型的逻辑强化学习方法,并应用于Deep Web信息搜索中。主要思想是将强化学习与归纳逻辑程序设计相结合,采用逻辑语言表示状态和活动等方面的知识,使用tableau模型简化状态空间,达到更大程度地提高强化学习算法收敛速度的目的。因此面向tableau模型的逻辑强化学习的研究,可以有效地解决强化学习中的"维数灾"的问题,对于强化学习在大规模网络信息搜索中的应用,既具有一定的理论价值,又有广阔的应用前景。

结项摘要

本项目针对强化学习中存在“维数灾”的问题,提出基于tableau模型的逻辑强化学习方法,并应用于Deep Web信息搜索中。主要完成了以下五方面内容:.⑴ 将强化学习与归纳逻辑程序设计相结合,对强化学习算法中的状态、活动用逻辑表达式进行抽象。充分利用归纳逻辑程序设计语言的谓词、表、截断等的优势,建立起强化学习状态之间的逻辑关系,简化活动策略的选择,提高强化学习的收敛速度。.⑵ 采用tableau推理模型对逻辑状态和逻辑活动进行建模,研究一种新的函数估计模型,使其一方面能够以任何精度逼近理论的强化学习值函数,另一方面在增量环境中保证收敛性。.⑶ 将布尔剪枝、IP-tableau等方法与逻辑强化学习相结合,对逻辑状态空间模型进行相应的等价转换,采用解线性方程组的方式来简化状态空间,降低状态空间维数,解决大规模、连续的MDP问题。在tetris问题中,试验所设计的强化学习框架和算法,并对比收敛速度。.⑷ 结合我们所研究的模型和算法,研究一种面向Deep Web搜索引擎的自适应爬虫搜索算法。在模型不确定的情况下,寻找满足搜索算法的优化目标的最优策略,达到爬虫总搜索路径最短、搜索无关页面最低等,并在性能上对比目前常用的几种爬虫调度算法。.⑸ 设计实现上述理论、优化算法的系统原型,并应用于Deep Web搜索引擎中,实现对Deep Web搜索的策略优化。

项目成果

期刊论文数量(24)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(2)
一种最大集合期望损失的多目标Sarsa(λ)算法
  • DOI:
    --
  • 发表时间:
    2013
  • 期刊:
    电子学报
  • 影响因子:
    --
  • 作者:
    刘全;李瑾;傅启明;崔志明;伏玉琛
  • 通讯作者:
    伏玉琛
A Parallel Scheduling Algorithm for Reinforcement Learning in Large State Space
大状态空间强化学习并行调度算法
  • DOI:
    --
  • 发表时间:
    2012
  • 期刊:
    Frontier of Computer Science
  • 影响因子:
    --
  • 作者:
    刘全
  • 通讯作者:
    刘全
基于多Agent并行采样和学习经验复用的E~3算法
  • DOI:
    --
  • 发表时间:
    2013
  • 期刊:
    吉林大学学报(工学版)
  • 影响因子:
    --
  • 作者:
    刘全;杨旭东;荆玲;肖飞
  • 通讯作者:
    肖飞
Research of qos rounting algorithm in Ad Hoc networks based on reinforcement learning
基于强化学习的Ad Hoc网络QoS路由算法研究
  • DOI:
    --
  • 发表时间:
    2013
  • 期刊:
    Electronics and Electrical Engineering
  • 影响因子:
    --
  • 作者:
    刘全
  • 通讯作者:
    刘全
利用移动内点来修复传感器网络空洞的算法
  • DOI:
    --
  • 发表时间:
    2012
  • 期刊:
    通信学报
  • 影响因子:
    --
  • 作者:
    刘全
  • 通讯作者:
    刘全

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--"}}
  • 发表时间:
    {{ item.publish_year || "--" }}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--"}}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ patent.updateTime }}

其他文献

双精英协同进化遗传算法
  • DOI:
    --
  • 发表时间:
    2012
  • 期刊:
    软件学报
  • 影响因子:
    --
  • 作者:
    刘全;王晓燕;傅启明;张永刚;章晓芳
  • 通讯作者:
    章晓芳
最小状态变元平均奖赏的强化学习方法
  • DOI:
    --
  • 发表时间:
    2011
  • 期刊:
    通信学报
  • 影响因子:
    --
  • 作者:
    刘全;傅启明;龚声蓉;伏玉琛;崔志明
  • 通讯作者:
    崔志明
一种新的基于值函数迁移的快速Sarsa算法
  • DOI:
    --
  • 发表时间:
    2014
  • 期刊:
    电子学报
  • 影响因子:
    --
  • 作者:
    刘全;尤树华;黄蔚;章晓芳
  • 通讯作者:
    章晓芳
土石围堰边坡稳定的多因素综合风险分析
  • DOI:
    --
  • 发表时间:
    2013
  • 期刊:
    天津大学学报(自然科学与工程技术版)
  • 影响因子:
    --
  • 作者:
    罗立哲;胡志根;刘全;皮凌华
  • 通讯作者:
    皮凌华
爆轰计算JWL状态方程参数不确定度研究
  • DOI:
    --
  • 发表时间:
    --
  • 期刊:
    爆炸与冲击
  • 影响因子:
    --
  • 作者:
    刘全;王瑞利;林忠;温万治
  • 通讯作者:
    温万治

其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--" }}
  • 发表时间:
    {{ item.publish_year || "--"}}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--" }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}
empty
内容获取失败,请点击重试
重试联系客服
title开始分析
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:

AI项目思路

AI技术路线图

刘全的其他基金

面向大规模强化学习任务的预测控制理论与方法研究
  • 批准号:
    62376179
  • 批准年份:
    2023
  • 资助金额:
    49 万元
  • 项目类别:
    面上项目
基于部分感知模型的贝叶斯强化学习理论及方法
  • 批准号:
    61772355
  • 批准年份:
    2017
  • 资助金额:
    65.0 万元
  • 项目类别:
    面上项目
基于模糊逻辑的大规模强化学习理论及方法
  • 批准号:
    61472262
  • 批准年份:
    2014
  • 资助金额:
    82.0 万元
  • 项目类别:
    面上项目
基于贝叶斯推理的模糊逻辑强化学习模型研究
  • 批准号:
    61272005
  • 批准年份:
    2012
  • 资助金额:
    61.0 万元
  • 项目类别:
    面上项目
近红外波段堆垛结构三维光子晶体的制备和研究
  • 批准号:
    60907017
  • 批准年份:
    2009
  • 资助金额:
    22.0 万元
  • 项目类别:
    青年科学基金项目
基于tableau的非经典逻辑经典化的自动定理证明研究
  • 批准号:
    60873116
  • 批准年份:
    2008
  • 资助金额:
    35.0 万元
  • 项目类别:
    面上项目

相似国自然基金

{{ item.name }}
  • 批准号:
    {{ item.ratify_no }}
  • 批准年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}

相似海外基金

{{ item.name }}
{{ item.translate_name }}
  • 批准号:
    {{ item.ratify_no }}
  • 财政年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了

AI项目解读示例

课题项目:调控A型流感病毒诱导IFN-β表达的机制研究

AI项目摘要:

本研究聚焦于TRIM2蛋白在A型流感病毒诱导的IFN-β表达中的调控机制。A型流感病毒是全球性健康问题,其感染可导致严重的呼吸道疾病。IFN-β作为关键的抗病毒因子,其表达水平对抗病毒防御至关重要。然而,TRIM2如何调控IFN-β的表达尚未明确。本研究假设TRIM2通过与病毒RNA或宿主因子相互作用,影响IFN-β的产生。我们将采用分子生物学、细胞生物学和免疫学方法,探索TRIM2与A型流感病毒诱导IFN-β表达的关系。预期结果将揭示TRIM2在抗病毒免疫反应中的作用,为开发新的抗病毒策略提供理论基础。该研究对理解宿主抗病毒机制具有重要科学意义,并可能对临床治疗流感病毒感染提供新的视角。

AI项目思路:

科学问题:TRIM2如何调控A型流感病毒诱导的IFN-β表达?
前期研究:已有研究表明TRIM2参与抗病毒反应,但其具体机制尚不明确。
研究创新点:本研究将深入探讨TRIM2在IFN-β表达中的直接作用机制。
技术路线:包括病毒学、分子生物学、细胞培养和免疫检测技术。
关键技术:TRIM2与病毒RNA的相互作用分析,IFN-β启动子活性检测。
实验模型:使用A型流感病毒感染的细胞模型进行研究。

AI技术路线图

        graph TD
          A[研究起始] --> B[文献回顾与假设提出]
          B --> C[实验设计与方法学准备]
          C --> D[A型流感病毒感染模型建立]
          D --> E[TRIM2与病毒RNA相互作用分析]
          E --> F[TRIM2对IFN-β启动子活性的影响]
          F --> G[IFN-β表达水平测定]
          G --> H[TRIM2功能丧失与获得研究]
          H --> I[数据收集与分析]
          I --> J[结果解释与科学验证]
          J --> K[研究结论与未来方向]
          K --> L[研究结束]
      
关闭
close
客服二维码