費用の分散を考慮したマルコフ決定過程とその応用に関する研究
考虑成本分散的马尔可夫决策过程研究及其应用
基本信息
- 批准号:08680461
- 负责人:
- 金额:$ 0.38万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Scientific Research (C)
- 财政年份:1996
- 资助国家:日本
- 起止时间:1996 至 无数据
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
本研究では、有限個の状態、有限個の決定をもつマルコフ決定過程(MDP)において、各定常政策の評価規範として、従来採用されている時間平均コスト(以下単に期待値と略す)に加え、政策の危険度を表現する指標としてあらたに無限期間における総コストの分散の時間平均(以下単に分散と略す)を提案し、その導出および分散制約期待値最小化問題と期待値制約分散最小化問題の解析を目的としている。1.分散の導出...すべての政策の下でマルコフ連鎖は完全エルゴディックである場合を考える。この場合マルコフ連鎖はある状態を指定した時いわゆる再生過程をなす。はじめにコストを伴う再生過程において、時間平均分散は1サイクルにおけるコストの分散と1サイクルの期待時間の比で与えられる事を、再生型方程式及びラプラス変換を用い明らかにした。この事を用い、MDPにおける分散の導出式を連立一次方程式の形で与えた。さらに、MDPの拡張であるセミ-マルコフ決定過程に対しても、同様の解析方法で分散が導出できる事も示した。これらについては、現在投稿準備中である。2.1制約を持つMDPのGAによる近似解法と分散、期待値最適化問題...分散制約期待値最小化問題及び期待値制約分散最小化問題は、一種の組み合わせ最適化問題であるが、その厳密解(政策)の導出は現時点では期待できない。そこで近似解法として遺伝的アルゴリズム(GA)を適用する事を考えたが、GAの効果を調べるためにも(それ自体重要な問題であるが)2種のコストを持つMDPにおける1期待値制約付きMDPにおいてGAによる解法を提唱した。この結果は、確率モデルに関する日豪ワークショップ(1996年、7月)で発表した。分散、期待値問題については、現在検討継続中である。
在这项研究中,在马尔可夫决策过程(MDP)中,具有有限的状态和有限的决策,我们建议,作为每个固定政策的评估规范,除了时间平均成本(以下简称以下费用简称为预期价值),作为一种指标,作为一个策略的风险(以下是在此处表达了无限范围的差异)的指标(我们提出了一个无限范围的变化)。表示政策的风险,并旨在得出它并分析方差约束期望值最小化问题和方差约束方差最小化问题。 1。分散的推导...考虑在所有政策下,马尔可夫链都是完全奇异的情况。在这种情况下,当指定某个状态时,马尔可夫链形成了所谓的再生过程。首先,我们使用再生方程和拉普拉斯转换阐明了,在成本密集的再生过程中,时间平均值的差异是通过一对一周期差异与一个周期预期时间的比率给出的。使用它,我们以同时线性方程的形式给出了MDP方差的派生方程。此外,还表明,可以使用类似的分析方法为半马多夫决策过程得出差异。这些目前正在准备提交。 2.1近似解决方案,方差以及使用GA的MDP和约束的预期价值优化问题...方差约束期望值最小化问题和方差最小化问题是一种组合优化问题,但目前不可能得出其确切的解决方案(策略)。因此,我们认为将遗传算法(GA)应用于近似解决方案,但是为了研究GA的效果,我们提出了使用GA进行MDP的解决方案,其中MDP的MDP中有两个成本(尽管这是一个重要的问题)。这些结果在概率模型的日本 - 澳大利亚研讨会上提出(1996年7月)。目前正在研究差异和期望值问题。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Katumi,HIRAYAMA: "A Solving method of a MDP with constraint by GA" Stoch.Modelson Eng.Tech.and Mang.216-225 (1996)
Katumi,HIRAYAMA:“受 GA 约束的 MDP 的求解方法”Stoch.Modelson Eng.Tech.and Mang.216-225 (1996)
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
共 1 条
- 1
河合 一其他文献
生活の質が臨床判断における閾値分析に与える影響について
生活质量对临床判断阈值分析的影响
- DOI:
- 发表时间:20042004
- 期刊:
- 影响因子:0
- 作者:佐藤 毅;河合 一佐藤 毅;河合 一
- 通讯作者:河合 一河合 一
共 1 条
- 1
河合 一的其他基金
大規模ネットワークシステムの総合的信頼度向上に関する研究
提高大规模网络系统整体可靠性的研究
- 批准号:1460801414608014
- 财政年份:2002
- 资助金额:$ 0.38万$ 0.38万
- 项目类别:Grant-in-Aid for Scientific Research (C)Grant-in-Aid for Scientific Research (C)
制約付マルコフ決定過程への遺伝アルゴリズムの適用に関する研究
遗传算法在约束马尔可夫决策过程中的应用研究
- 批准号:0768046307680463
- 财政年份:1995
- 资助金额:$ 0.38万$ 0.38万
- 项目类别:Grant-in-Aid for General Scientific Research (C)Grant-in-Aid for General Scientific Research (C)
ネットワーク構造をもつ信頼性システムの最適保全方策に関する研究
网络结构可靠系统最优维护策略研究
- 批准号:0668040006680400
- 财政年份:1994
- 资助金额:$ 0.38万$ 0.38万
- 项目类别:Grant-in-Aid for General Scientific Research (C)Grant-in-Aid for General Scientific Research (C)
震災時の情報システムの最適保全性と都市中枢機能に関する研究
地震灾害时信息系统和城市中心功能优化维护性研究
- 批准号:0220123702201237
- 财政年份:1990
- 资助金额:$ 0.38万$ 0.38万
- 项目类别:Grant-in-Aid for Scientific Research on Priority AreasGrant-in-Aid for Scientific Research on Priority Areas
ネットワークシステムの信頼性および最適保全政策に関する研究
网络系统可靠性及优化维护策略研究
- 批准号:X00210----475312X00210----475312
- 财政年份:1979
- 资助金额:$ 0.38万$ 0.38万
- 项目类别:Grant-in-Aid for Encouragement of Young Scientists (A)Grant-in-Aid for Encouragement of Young Scientists (A)
相似海外基金
Construction and Implementation of Stochastic Nash Equilibrium for Large-Scale Systems with Noise
大规模噪声系统随机纳什均衡的构建与实现
- 批准号:2050001420500014
- 财政年份:2008
- 资助金额:$ 0.38万$ 0.38万
- 项目类别:Grant-in-Aid for Scientific Research (C)Grant-in-Aid for Scientific Research (C)