数学物理学报 ›› 2000, Vol. 20 ›› Issue (1): 31-35.

• 论文 • 上一篇    下一篇

非平稳MDP—平均样本轨道最优

  

  1. 中山大学数学系
  • 出版日期:2000-01-07 发布日期:2000-01-07

The sample path optimality for nonstationary MDP with Average criterion

  1. department of mathematics,zhongshan university,guangzhou 510275
  • Online:2000-01-07 Published:2000-01-07

摘要:

作者考虑的是任意状态空间,任意行动空间非平稳MDP的平均样本轨道目标.在弱遍历条件下,用鞅的极限理论,证明了最优马氏策略的存在性,推广了A.Arapostathis,V.Borkar,E.F.Gaucherand,M.Ghosh,S.Marcus[1](1993)的主要结果.

关键词: 马氏决策规划(MDP), 平均样本轨道目标, 非平稳, 最优马氏策略

Abstract:

Inthispaper,weconsiderthesamplepathoptimalityfornonstationary MDPwitharbitrarystateandactionspacesunderaveragecriterion.Bythemartingaletheory,weprovetheexistenceofoptimalMarkovpoliciesundertheweakergodicconditions,andthenextendthemainresultsobtainedbyA.Aropostathis,V.Borkar,E.F.Gaucherand,M.GhoshandS.Marcus[1](1993)

Key words: Markovdecisionprogramming (MDP), Averagesamplepathcriterion, Nonstationary, OptimalMarkovpolicies

中图分类号: 

  • 90C40