Polish空间上的折扣马氏过程量子化策略的渐近优化
Asymptotic Optimality of Quantized Stationary Policies in Continuous-Time Markov Decision Processes with Polish Spaces
通讯作者:
收稿日期: 2021-03-4
基金资助: |
|
Received: 2021-03-4
Fund supported: |
|
In this paper, we study the asymptotic optimality of the quantized stationary policies for continuous-time Markov decision processes (CTMDPs) with Polish space and state-dependent discount factors. Firstly, the existence and uniqueness of the discounted optimal equation (DOE) and its solution are established. Secondly, the existence of the optimal deterministic stationary policies is proved under appropriate conditions. In addition, in order to discretize the action space, a series of quantization policies are constructed to approximate the optimal stationary policies of the discounted CTMDPs in general state (Polish) space by using the policies in finite action space. Finally, an example is given to illustrate the asymptotic approximation results of this paper.
Keywords:
本文引用格式
吴晓, 孔荫莹, 郭圳滨.
Wu Xiao, Kong Yinying, Guo Zhenbin.
1 引言
本文研究了无限阶段、带折扣因子的连续时间马尔可夫决策过程(CTMDPs), 其折扣因子依赖于系统状态, 且允许转移率和报酬率是无界的, 讨论了其量子化平稳策略的渐近最优性问题.
众所周知, 折扣CTMDPs作为一类重要的随机控制问题已经得到了广泛的研究. 一般来说, 根据折扣因子的不同形式, 无限阶段折扣CTMDPs大致可分为以下三种: (ⅰ) 具有常数折扣因子
对于MDPs的折扣准则, 现有文献集中在折扣最优方程和最优平稳策略的存在性研究, 例如, 文献[1, 4, 6, 7]中对CTMDPs的研究和文献[8-10, 13-15] 中对离散时间马氏决策过程(DTMDPs) 的研究. 然而, 上述文献研究的是带常数折扣因子的MDPs和可变折扣DTMDPs的折扣优化问题. 最近, 文献[16] 研究了依赖状态折扣因子的CDMDPs优化问题, 建立了折扣最优方程(DOE), 得到了最优平稳策略的存在性结论. 但是, 文献[16] 的策略类是限制在随机平稳策略类上. 鉴于此, 本文在其基础上, 将策略类推广到更一般的随机马氏策略类上来讨论, 利用一个新的证明方法, 也得到了折扣最优平稳策略的存在性, 而且我们的证明过程更简洁.
此外, 尽管最优策略的存在性得到了证明, 但是, 对于非有限的一般完备可分的状态与行动空间上(例如Polish空间), 最优平稳策略的计算变得非常困难. 因而, 从实践来看, 研究其最优平稳策略的逼近计算显得尤为重要. 对于有限状态和可数状态空间情形, 已经有一些逼近计算的方法, 参见文献[17-20]. 近来, 对无限Borel状态与行动空间, 文献[21, 22] 给出了DTMDPs随机控制中量子化平稳策略的渐近最优化. 受此启发, 我们将其思想引入到一般状态空间上的可变折扣CTMDPs, 得到了其量子化平稳策略的渐近最优化结论. 据我们所知, 对于具有可变(依赖状态)折扣因子的CTMDPs的渐近最优化问题尚未有研究.
因此, 本文包含两个主要贡献.
(a) 对于具有状态依赖折扣因子的CDMDPs, 我们将文献[16] 中的一些结果推广到所有随机马氏策略类上来讨论, 并通过引入新的随机控制过程, 简化了折扣最优平稳策略存在性的证明.
(b) 为了计算非有限(不可数) Polish状态和行动空间上的最优策略, 我们给出了量子化逼近计算方法, 并建立了量子化控制策略渐近最优的条件.
2 CTMDPs及其折扣最优化问题
考虑如下CTMDPs模型
其中,
折扣因子
定义2.1 由随机核
所有随机马氏策略构成的集合记为
定义2.2 一随机马氏策略
定义2.3 一随机平稳策略
显然,
通常, 也分别记作
特别地, 当
此外, 对每个
对任一策略
其中,
假设2.1 假设存在
对每个
且相应的最优值函数为
并且, 策略
3 最优平稳策略的存在性
注意到, 对
假设3.1 让
对每个
其中,
且定义一递归数列
下面, 给出折扣最优方程(DOE).
定理3.1 在假设2.1和3.1(b)-(c) 下, 以下断言成立.
证
其中, 由文献[4] 的定理3.2(b) 可得最后一个不等式成立. 因此, 对每个
而且, 易知算子
接着, 我们证明
于是, 由归纳法可知, 对所有
因此
即
最后, 我们证明
于是, 让
从而
下面的引理3.1是文献[16] 中定理3.2的直接结论.
引理3.1 在假设2.1和3.1下, 对每个
引理3.2 在假设2.1和3.1下, 对每个
则
则
证 由(3.3) 式, 存在
现在, 令
其中, 仅报酬函数与(2.1) 式中的不一致, 其余元素组均相同. 因而, 对每个
由引理3.1, 可得
同理可证(b) 也成立.
注3.2 引理3.2是文献[16] 中的引理6.3的推广: 将常数折扣问题推广到了可变折扣、将确定平稳策略类上的研究推广到了随机平稳策略类上.
定理3.2 在假设2.1和3.1下, 对每个
证 由定理3.1(b), 对每个
联立引理3.2(a) 可得
因此, 由引理3.1可得
注3.3
4 量子化平稳策略的渐近优化
本节中, 我们将给出一个最优策略的量子化逼近计算: 对行动空间进行“离散化”, 以便构造一列“量子化策略”, 用量子化最优平稳策略去逼近(2.1) 式中CTMDPs模型的最优平稳策略. 为此, 我们先给出量子化和量子化平稳策略的定义.
定义4.1 可测函数
定义4.2 一个策略被称为是确定平稳量子化策略, 若存在一给定
对任意有限集
记定义在
其中,
引理4.1 (量子化策略的构造) 令
则
证 由文献[21, Section III] 可知, 引理4.1显然成立.
我们也称
假设4.1 让
引理4.2 若假设3.1和4.1成立, 令
现在, 给出确定平稳量子化策略的期望折扣报酬的逼近结果.
定理4.1 假设2.1, 3.1和4.1成立, 令
证 由期望折扣报酬准则的定义, 有
注意到, 由引理4.1和4.2, 我们有
从而
另一方面, 我们有
其中, 最后一个不等式成立是由于文献[4] 的定理3.2(b). 于是, 当
由(4.1) 式, 可得
定理4.1得证.
5 一个例子
考虑如下CTMDPs模型. 状态空间为
其中,
其中,
且对每个
(ⅰ)
(ⅱ)
令
且最优平稳策略为
现在, 我们构造此最优策略
其中,
参考文献
Continuous-time control of Markov processes on an arbitrary state space: discounted rewards
,
Continuous-time jump Markov decision processes: A discrete-event approach
,
Continuous-time Markov decision processes with discounted rewards: The case of Polish spaces
,DOI:10.1287/moor.1060.0210 [本文引用: 7]
Constrained optimization for average cost continuous-time Markov decision processes
,DOI:10.1109/TAC.2007.899040 [本文引用: 2]
Discounted continuous-time constrained Markov decision processes in Polish spaces
,
Markov decision models with weighted discounted criteria
,DOI:10.1287/moor.19.1.152 [本文引用: 1]
Markov control processes with randomized discounted cost
,
First passage optimality and variance minimization of Markov decision processes with varying discount factors
,DOI:10.1239/jap/1437658608 [本文引用: 2]
Finite approximation of the first passage models for discrete-time Markov decision processes with varying discount factors
,DOI:10.1007/s10626-014-0209-3 [本文引用: 1]
Continuous-time Markov decision processes with state-dependent discount factors
,DOI:10.1007/s10440-012-9669-3 [本文引用: 7]
Finite-state approximations for denumerable state discounted Markov decision processes
,
Finite linear programming approximations of constrained discounted Markov decision processes
,
Convergence of Markov decision processes with constraints and state-action dependent discount factors
,DOI:10.1007/s11425-017-9292-1 [本文引用: 1]
Asymptotic optimality and rates of convergence of quantized stationary policies in stochastic control
,
Near optimality of quantized policies in stochastic control under weak continuity conditions
,DOI:10.1016/j.jmaa.2015.10.008 [本文引用: 1]
Computable exponential convergence rates for stochastically ordered Markov processes
,
/
〈 | 〉 |