受限制策略下多臂Bandit过程的理论与应用研究

结题报告
项目介绍
AI项目解读

基本信息

  • 批准号:
    71371074
  • 项目类别:
    面上项目
  • 资助金额:
    57.0万
  • 负责人:
  • 依托单位:
  • 学科分类:
    G0102.运筹与管理
  • 结题年份:
    2017
  • 批准年份:
    2013
  • 项目状态:
    已结题
  • 起止时间:
    2014-01-01 至2017-12-31

项目摘要

Multi-armed bandit processes (abbreviated as MAB), which are dated back to 1950s, belong to the framework of dynamic stochastic optimizaitons. They are a type of particular dynamic stochastic control models that are concerned with the problems of optimally allocating scareced resources to certain competitive projects. In mathematical language, an MAB constitutes of a set of parallel controllable stochastic processes, each of which has two options: evolution and freezen. Whenever a process evolves, it gives out a flow of rewards. MAB models aim at finding out the rules of evolution and freezen on each controllabel member stochastic processes (time allocation schemes) such that at any calander time t the sum of the time allocated to each projects is not more than t itself, so as to maximize the expected total rewards. The objective of this pproposal is to introduce the concept of restricted policies into the MAB community so as to characterize the restrictions on policies in the real life practice, e.g., freezing is prohibted if the process enters certain particular states, and accordingly develop the optimality theory of MAB under restricted policies, as well as explore the applications of that new theory in related areas including particularly the area of stochastic scheduling.
多臂Bandit过程模型(Multi-armed Bandit Processes,简称为MAB)起源于1950年代,属于动态随机最优化的范畴,是一种特殊类型的动态随机控制模型,用于处理如何最优地进行稀缺资源的分配。从数学上来说,MAB由一组平行的可控随机过程组成,每个随机过程有两个选项:演进和停止,一旦向前演进,该过程的信息会随时更新,同时给出一个报酬流;一旦被停止,则其信息流和报酬都不会发生更新。MAB模型的目标是确定各个随机过程演进和停止的规则(时间分配规则),满足条件:在时间t,各个随机过程进程时间之和不大于总时间t,并且使得期望折扣总报酬达到最大。本项目旨在MAB模型中引入受限策略的概念,以便刻画现实中对策略的技术限制(比如在某个随机过程达到一定的状态时,不允许被停止),相应发展一套受限策略下MAB最优策略的新理论、新方法,并探索其在相关领域比如随机调度领域的应用。

结项摘要

经典 bandit process 研究主要分为三类:连续时间、离散时间以及半马氏类 过程(或者跳过程)上的 bandit process 最优决策问题,该框架对加工机器在各 个臂(arms)之间的切换不加任何约束。但是在实际问题中,往往会碰到加工机器 不能在各个臂之间自由切换的情形。..本项目研究带约束 bandit process 的最优调度的理论及相关问题, 重要的结果包括三个部分:一是作为研究基础的带约束最优停时问题, 其中,可行的停时集合并不包括所有的停时,而是带有一定约束的停时;二是以带约束的最优停时理论作为基本工具, 获得了带约束 bandit process 的Gittins index的定义,并证明了基于Gittins index的策略在期望折扣报酬调度下的最有性; 三是带约束bandit process调度理论应用于机器加工调度问题以及医疗调度的问题,得到了相应问题的最优解。..本研究本研究提出的模型涵盖了几乎所有的经典bandit process的模型,其结果从理论上拓广了经典bandit process最优策略的研究和应用场景。

项目成果

期刊论文数量(13)
专著数量(1)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
The Robustness for Premium Calculations Using Bayesian Approaches
使用贝叶斯方法进行溢价计算的稳健性
  • DOI:
    --
  • 发表时间:
    2015
  • 期刊:
    Journal of Jiangxi Normal University (Natural Science Edition)
  • 影响因子:
    --
  • 作者:
    吴贤毅
  • 通讯作者:
    吴贤毅
Stochastic Loss Reserving in Discrete Time: Individual vs. Aggregate Data Models
离散时间的随机损失保留:个体数据模型与聚合数据模型
  • DOI:
    10.1080/03610926.2014.976473
  • 发表时间:
    2015
  • 期刊:
    Communications in Statistics - Theory and Methods
  • 影响因子:
    --
  • 作者:
    Huang Jinlong;Qiu Chunjuan;Wu Xianyi
  • 通讯作者:
    Wu Xianyi
Credibility models with dependence structure over risks and time horizon
具有风险和时间范围依赖性结构的可信度模型
  • DOI:
    10.3934/jimo.2015.11.365
  • 发表时间:
    2015
  • 期刊:
    Journal of Industrial and Management Optimization
  • 影响因子:
    1.3
  • 作者:
    Huang Weizhong;Wu Xianyi
  • 通讯作者:
    Wu Xianyi
X Cai, L Wen, X Wu, X Zhou. Credibility Estimation of Distribution Functions with Applications to Experience Rating in General Insurance
X蔡,L文,X吴,X周。
  • DOI:
    --
  • 发表时间:
    2015
  • 期刊:
    North American Actuarial Journal
  • 影响因子:
    1.4
  • 作者:
    Cai X.;Wen L.;吴贤毅;Zhou X.
  • 通讯作者:
    Zhou X.
Estimation of Poisson-Dirichlet Parameters with Monotone Missing Data
单调缺失数据的泊松-狄利克雷参数估计
  • DOI:
    10.1155/2017/7892507
  • 发表时间:
    2017
  • 期刊:
    MATHEMATICAL PROBLEMS IN ENGINEERING
  • 影响因子:
    --
  • 作者:
    Zhou Xueqin;Huang Jinlong;Wu Xianyi
  • 通讯作者:
    Wu Xianyi

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--"}}
  • 发表时间:
    {{ item.publish_year || "--" }}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--"}}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ patent.updateTime }}

其他文献

RBNS的线性预测模型
  • DOI:
    --
  • 发表时间:
    2011
  • 期刊:
    应用概率统计
  • 影响因子:
    --
  • 作者:
    俞雪梨;吴贤毅
  • 通讯作者:
    吴贤毅
Local linear regression in proportional hazards model with censored data
具有删失数据的比例风险模型中的局部线性回归
  • DOI:
    --
  • 发表时间:
    --
  • 期刊:
    Communications in Statistics-Theory and Methods
  • 影响因子:
    0.8
  • 作者:
    吴贤毅
  • 通讯作者:
    吴贤毅
基于核估计下概率密度函数的信度模型
  • DOI:
    10.13299/j.cnki.amjcu.002106
  • 发表时间:
    2020
  • 期刊:
    高校应用数学学报A辑(中文版)
  • 影响因子:
    --
  • 作者:
    章溢;熊佳;温利民;吴贤毅;周宪
  • 通讯作者:
    周宪
A New Class of Credibility Estimators Under the Generalized Weighted Premium Principle
广义加权溢价原理下的一类新的可信度估计器
  • DOI:
    10.1080/03610926.2011.582565
  • 发表时间:
    2013
  • 期刊:
    Communications in Statistics - Theory and Methods
  • 影响因子:
    --
  • 作者:
    温利民;王江峰;吴贤毅
  • 通讯作者:
    吴贤毅
指数保费原理下的经验厘定
  • DOI:
    --
  • 发表时间:
    2011
  • 期刊:
    中国科学:数学
  • 影响因子:
    --
  • 作者:
    温利民;吴贤毅
  • 通讯作者:
    吴贤毅

其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--" }}
  • 发表时间:
    {{ item.publish_year || "--"}}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--" }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}
empty
内容获取失败,请点击重试
重试联系客服
title开始分析
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:

AI项目思路

AI技术路线图

吴贤毅的其他基金

可信离线强化学习的置信下限方法:算法与理论
  • 批准号:
    72371103
  • 批准年份:
    2023
  • 资助金额:
    41 万元
  • 项目类别:
    面上项目
多臂Bandit process中的Bayes非参数方法
  • 批准号:
    71771089
  • 批准年份:
    2017
  • 资助金额:
    48.0 万元
  • 项目类别:
    面上项目
非标准随机调度模型的最优动态策略
  • 批准号:
    71071056
  • 批准年份:
    2010
  • 资助金额:
    28.0 万元
  • 项目类别:
    面上项目
机器具有中断条件下的随机调度问题
  • 批准号:
    70671043
  • 批准年份:
    2006
  • 资助金额:
    19.0 万元
  • 项目类别:
    面上项目

相似国自然基金

{{ item.name }}
  • 批准号:
    {{ item.ratify_no }}
  • 批准年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}

相似海外基金

{{ item.name }}
{{ item.translate_name }}
  • 批准号:
    {{ item.ratify_no }}
  • 财政年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了

AI项目解读示例

课题项目:调控A型流感病毒诱导IFN-β表达的机制研究

AI项目摘要:

本研究聚焦于TRIM2蛋白在A型流感病毒诱导的IFN-β表达中的调控机制。A型流感病毒是全球性健康问题,其感染可导致严重的呼吸道疾病。IFN-β作为关键的抗病毒因子,其表达水平对抗病毒防御至关重要。然而,TRIM2如何调控IFN-β的表达尚未明确。本研究假设TRIM2通过与病毒RNA或宿主因子相互作用,影响IFN-β的产生。我们将采用分子生物学、细胞生物学和免疫学方法,探索TRIM2与A型流感病毒诱导IFN-β表达的关系。预期结果将揭示TRIM2在抗病毒免疫反应中的作用,为开发新的抗病毒策略提供理论基础。该研究对理解宿主抗病毒机制具有重要科学意义,并可能对临床治疗流感病毒感染提供新的视角。

AI项目思路:

科学问题:TRIM2如何调控A型流感病毒诱导的IFN-β表达?
前期研究:已有研究表明TRIM2参与抗病毒反应,但其具体机制尚不明确。
研究创新点:本研究将深入探讨TRIM2在IFN-β表达中的直接作用机制。
技术路线:包括病毒学、分子生物学、细胞培养和免疫检测技术。
关键技术:TRIM2与病毒RNA的相互作用分析,IFN-β启动子活性检测。
实验模型:使用A型流感病毒感染的细胞模型进行研究。

AI技术路线图

        graph TD
          A[研究起始] --> B[文献回顾与假设提出]
          B --> C[实验设计与方法学准备]
          C --> D[A型流感病毒感染模型建立]
          D --> E[TRIM2与病毒RNA相互作用分析]
          E --> F[TRIM2对IFN-β启动子活性的影响]
          F --> G[IFN-β表达水平测定]
          G --> H[TRIM2功能丧失与获得研究]
          H --> I[数据收集与分析]
          I --> J[结果解释与科学验证]
          J --> K[研究结论与未来方向]
          K --> L[研究结束]
      
关闭
close
客服二维码