費用の分散を考慮したマルコフ決定過程とその応用に関する研究

考虑成本分散的马尔可夫决策过程研究及其应用

基本信息

  • 批准号:
    08680461
  • 负责人:
  • 金额:
    $ 0.38万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
  • 财政年份:
    1996
  • 资助国家:
    日本
  • 起止时间:
    1996 至 无数据
  • 项目状态:
    已结题

项目摘要

本研究では、有限個の状態、有限個の決定をもつマルコフ決定過程(MDP)において、各定常政策の評価規範として、従来採用されている時間平均コスト(以下単に期待値と略す)に加え、政策の危険度を表現する指標としてあらたに無限期間における総コストの分散の時間平均(以下単に分散と略す)を提案し、その導出および分散制約期待値最小化問題と期待値制約分散最小化問題の解析を目的としている。1.分散の導出...すべての政策の下でマルコフ連鎖は完全エルゴディックである場合を考える。この場合マルコフ連鎖はある状態を指定した時いわゆる再生過程をなす。はじめにコストを伴う再生過程において、時間平均分散は1サイクルにおけるコストの分散と1サイクルの期待時間の比で与えられる事を、再生型方程式及びラプラス変換を用い明らかにした。この事を用い、MDPにおける分散の導出式を連立一次方程式の形で与えた。さらに、MDPの拡張であるセミ-マルコフ決定過程に対しても、同様の解析方法で分散が導出できる事も示した。これらについては、現在投稿準備中である。2.1制約を持つMDPのGAによる近似解法と分散、期待値最適化問題...分散制約期待値最小化問題及び期待値制約分散最小化問題は、一種の組み合わせ最適化問題であるが、その厳密解(政策)の導出は現時点では期待できない。そこで近似解法として遺伝的アルゴリズム(GA)を適用する事を考えたが、GAの効果を調べるためにも(それ自体重要な問題であるが)2種のコストを持つMDPにおける1期待値制約付きMDPにおいてGAによる解法を提唱した。この結果は、確率モデルに関する日豪ワークショップ(1996年、7月)で発表した。分散、期待値問題については、現在検討継続中である。
本研究在具有有限个状态和有限个决策的马尔可夫决策过程(MDP)中,除了常规采用的时间平均成本(以下简称期望值)作为每个状态的评价标准外,平稳政策,我们新提出无限周期内总成本方差的时间平均值(以下简称方差)作为表示政策风险程度的指标,并求解其推导,方差约束期望值最小化问题,以及期望值约束方差最小化问题。 1. 方差的推导...考虑马尔可夫链在所有策略下完全遍历的情况。在这种情况下,当指定某种状态时,马尔可夫链会经历所谓的再生过程。首先,我们利用再生方程和拉普拉斯变换阐明,在涉及成本的再生过程中,时间平均方差由一个周期的成本方差与一个周期的期望时间的比值给出。利用这一事实,我们以联立线性方程的形式给出了 MDP 方差的推导公式。此外,我们还表明,可以使用类似的分析方法导出半马尔可夫决策过程(MDP 的扩展)的方差。这些目前正在准备提交。 2.1 使用GA近似求解方法用于具有约束、方差和期望优化问题的MDP...方差约束期望值最小化问题和期望值约束方差最小化问题是组合优化问题的一类,但它们的精确解没有(政策)预计将在此时得出。因此,我们考虑应用遗传算法(GA)作为近似求解方法,但为了研究GA的效果(这本身就是一个重要问题),在MDP中提出了使用GA的求解方法。这些结果在日本-澳大利亚概率模型研讨会(1996 年 7 月)上发表。目前正在考虑分散和期望值问题。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Katumi,HIRAYAMA: "A Solving method of a MDP with constraint by GA" Stoch.Modelson Eng.Tech.and Mang.216-225 (1996)
Katumi,HIRAYAMA:“受 GA 约束的 MDP 的求解方法”Stoch.Modelson Eng.Tech.and Mang.216-225 (1996)
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

河合 一其他文献

生活の質が臨床判断における閾値分析に与える影響について
生活质量对临床判断阈值分析的影响

河合 一的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('河合 一', 18)}}的其他基金

大規模ネットワークシステムの総合的信頼度向上に関する研究
提高大规模网络系统整体可靠性的研究
  • 批准号:
    14608014
  • 财政年份:
    2002
  • 资助金额:
    $ 0.38万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
制約付マルコフ決定過程への遺伝アルゴリズムの適用に関する研究
遗传算法在约束马尔可夫决策过程中的应用研究
  • 批准号:
    07680463
  • 财政年份:
    1995
  • 资助金额:
    $ 0.38万
  • 项目类别:
    Grant-in-Aid for General Scientific Research (C)
ネットワーク構造をもつ信頼性システムの最適保全方策に関する研究
网络结构可靠系统最优维护策略研究
  • 批准号:
    06680400
  • 财政年份:
    1994
  • 资助金额:
    $ 0.38万
  • 项目类别:
    Grant-in-Aid for General Scientific Research (C)
震災時の情報システムの最適保全性と都市中枢機能に関する研究
地震灾害时信息系统和城市中心功能优化维护性研究
  • 批准号:
    02201237
  • 财政年份:
    1990
  • 资助金额:
    $ 0.38万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
ネットワークシステムの信頼性および最適保全政策に関する研究
网络系统可靠性及优化维护策略研究
  • 批准号:
    X00210----475312
  • 财政年份:
    1979
  • 资助金额:
    $ 0.38万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)

相似海外基金

Construction and Implementation of Stochastic Nash Equilibrium for Large-Scale Systems with Noise
大规模噪声系统随机纳什均衡的构建与实现
  • 批准号:
    20500014
  • 财政年份:
    2008
  • 资助金额:
    $ 0.38万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了