摘要:
作者考虑的是任意状态空间,任意行动空间非平稳MDP的平均样本轨道目标.在弱遍历条件下,用鞅的极限理论,证明了最优马氏策略的存在性,推广了A.Arapostathis,V.Borkar,E.F.Gaucherand,M.Ghosh,S.Marcus[1](1993)的主要结果.
中图分类号:
郭先平. 非平稳MDP—平均样本轨道最优[J]. 数学物理学报, 2000, 20(1): 31-35.
GUO Xian-Beng. The sample path optimality for nonstationary MDP with Average criterion[J]. Acta mathematica scientia,Series A, 2000, 20(1): 31-35.