非平稳MDP—平均样本轨道最优

摘要/Abstract

摘要：

作者考虑的是任意状态空间，任意行动空间非平稳ＭＤＰ的平均样本轨道目标．在弱遍历条件下，用鞅的极限理论，证明了最优马氏策略的存在性，推广了Ａ．Ａｒａｐｏｓｔａｔｈｉｓ，Ｖ．Ｂｏｒｋａｒ，Ｅ．Ｆ．Ｇａｕｃｈｅｒａｎｄ，Ｍ．Ｇｈｏｓｈ，Ｓ．Ｍａｒｃｕｓ［１］（１９９３）的主要结果．

关键词: 马氏决策规划（ＭＤＰ）, 平均样本轨道目标, 非平稳, 最优马氏策略

Abstract:

Ｉｎｔｈｉｓｐａｐｅｒ，ｗｅｃｏｎｓｉｄｅｒｔｈｅｓａｍｐｌｅｐａｔｈｏｐｔｉｍａｌｉｔｙｆｏｒｎｏｎｓｔａｔｉｏｎａｒｙＭＤＰｗｉｔｈａｒｂｉｔｒａｒｙｓｔａｔｅａｎｄａｃｔｉｏｎｓｐａｃｅｓｕｎｄｅｒａｖｅｒａｇｅｃｒｉｔｅｒｉｏｎ．Ｂｙｔｈｅｍａｒｔｉｎｇａｌｅｔｈｅｏｒｙ，ｗｅｐｒｏｖｅｔｈｅｅｘｉｓｔｅｎｃｅｏｆｏｐｔｉｍａｌＭａｒｋｏｖｐｏｌｉｃｉｅｓｕｎｄｅｒｔｈｅｗｅａｋｅｒｇｏｄｉｃｃｏｎｄｉｔｉｏｎｓ，ａｎｄｔｈｅｎｅｘｔｅｎｄｔｈｅｍａｉｎｒｅｓｕｌｔｓｏｂｔａｉｎｅｄｂｙＡ．Ａｒｏｐｏｓｔａｔｈｉｓ，Ｖ．Ｂｏｒｋａｒ，Ｅ．Ｆ．Ｇａｕｃｈｅｒａｎｄ，Ｍ．ＧｈｏｓｈａｎｄＳ．Ｍａｒｃｕｓ［１］（１９９３）

Key words: Ｍａｒｋｏｖｄｅｃｉｓｉｏｎｐｒｏｇｒａｍｍｉｎｇ（ＭＤＰ）, Ａｖｅｒａｇｅｓａｍｐｌｅｐａｔｈｃｒｉｔｅｒｉｏｎ, Ｎｏｎｓｔａｔｉｏｎａｒｙ, ＯｐｔｉｍａｌＭａｒｋｏｖｐｏｌｉｃｉｅｓ

中图分类号:

90C40

郭先平. 非平稳MDP—平均样本轨道最优[J]. 数学物理学报, 2000, 20(1): 31-35.

GUO Xian-Beng. The sample path optimality for nonstationary MDP with Average criterion[J]. Acta mathematica scientia,Series A, 2000, 20(1): 31-35.

参考文献

１　ＡｒａｐｏｓｔａｔｈｉｓＡ，ＢｏｒｋａｒＶ，ＧａｕｃｈｅｒａｎｄＥＦ，ＧｈｏｓｈＭ，ＭａｒｃｕｓＳ．ＤｉｓｃｒｅｔｅｔｉｍｅｃｏｎｔｒｏｌｌｅｄＭａｒｋｏｖｐｒｏｃｅｓｓｅｓｗｉｔｈａｖｅｒａｇｅｃｏｓｔｃｒｉｔｅｒｉｏｎ：ａｓｕｒｖｅｙ．ＳＩＡＭＪＣｏｎｔｒｏｌａｎｄＯｐｔｉｍｉｚａｔｉｏｎ，１９９３，３１（２）：２８２－３４４
２　ＨｉｎｄｅｒｅｒＫ．Ｆｏｕｎｄａｔｉｏｎｓｏｆｎｏｎｓｔａｔｉｏｎａｒｙｄｙｎａｍｉｃｐｒｏｇｒａｍｍｉｎｇｗｉｔｈｄｉｓｃｒｅｔｅｔｉｍｅｐａｒａｍｅｔｅｒ．ＮｅｗＹｏｒｋ：ＳｐｒｉｎｇｅｒＶｅｒｌａｇ，１９７０
３　ＲｏｌａｎｄｏＣＣ，ＥｍａｎｕｅｌＦＧ．ＤｅｎｕｍｅｒａｂｌｅｃｏｎｔｒｏｌｌｅｄＭａｒｋｏｖｃｈａｉｎｓｗｉｔｈａｖｅｒａｇｅｒｅｗａｒｄｃｒｉｔｅｒｉｏｎ：ｓａｍｐｌｅｐａｔｈｏｐｔｉｍａｌｉｔｙ，ＺＯＲＭａｔｈｅＭｅｔｈｏｄｓ．ＯｐｅｒＲｅｓ，１９９５，４１：８９－１０８
４　ＬｅｒｍａＯ．Ａｄａｐｔｉｖｅｍａｒｋｏｖｃｏｎｔｒｏｌｌｅｄｐｒｏｃｅｓｓｅｓ．ＮｅｗＹｏｒｋ：ＳｐｒｉｎｇｅｒＶｅｒｌａｇ，１９８９
５　ＰａｒｋＹ，ＢｅａｎＩＣ，ＳｍｉｔｈＲＬ．ＯｐｔｉｍａｌａｖｅｒａｇｅｖａｌｕｅｃｏｎｖｅｎｇｅｎｃｅｉｎｎｏｎｈｏｍｏｇｅｎｅｏｕｓＭａｒｋｏｖｄｅｃｉｓｉｏｎｐｒｏｃｅｓｓｅｓ．Ｊ
ＭａｔｈＡｎａｌＡｐｐ，１９９３，１７９：５２６－５３６
６　魏力仁，郭先平．非平稳ＭＤＰ平均模型．科学通报，１９９１，１０：７２８－７３０

Metrics

Viewed

Full text

160

HTML			PDF

Just accepted	Online first	Issue	Just accepted	Online first	Issue
0	0	0	0	0	160

	From	local

	Times	160
	Rate	100%

Abstract

Just accepted	Online first	Issue

0	0	43

	From	Others

	Times	43
	Rate	100%

Cited

Web of Science	Crossref	ScienceDirect	Search for Citations in Google Scholar >>


This page requires you have already subscribed to WoS.

Shared

Discussed

[1]	谭秋衡, 吴量, 李波. 基于EMD及非平稳性度量的趋势噪声分解方法[J]. 数学物理学报, 2016, 36(4): 783-794.
[2]	谭秋衡, 丁义明. 基于非平稳性度量的彩票数据实证分析[J]. 数学物理学报, 2014, 34(1): 207-216.
[3]	丁义明, 范文涛, 谭秋衡, 吴克坤, 邹永杰. 数据流的非平稳性度量——纪念李国平院士吴新谋教授诞辰100周年[J]. 数学物理学报, 2010, 30(5): 1364-1376.