数学物理学报, 2022, 42(2): 594-604 doi:

论文

Polish空间上的折扣马氏过程量子化策略的渐近优化

吴晓1, 孔荫莹,2, 郭圳滨3

1 肇庆学院数学与统计学院 广东肇庆 526061

2 广东财经大学智能财会管理学院 广州 510320

3 广发证券股份有限公司发展研究中心 上海 200120

Asymptotic Optimality of Quantized Stationary Policies in Continuous-Time Markov Decision Processes with Polish Spaces

Wu Xiao1, Kong Yinying,2, Guo Zhenbin3

1 School of Mathematics and Statistics, Zhaoqing University, Guangdong Zhaoqing 526061

2 School of Intelligence Financial & Accounting Management, Guangdong University of Finance and Economics, Guangzhou 510320

3 Development Research Center, GF Securities Co Ltd, Shanghai 200120

通讯作者: 孔荫莹, E-mail: kongcoco@hotmail.com

收稿日期: 2021-03-4  

基金资助: 国家自然科学基金.  11961005
中山大学广东省计算科学重点实验室开放基金.  2021021
广东省普通高校重点领域(新一代信息技术)基金.  2020ZDZX3019
广州市科技计划项目.  202102080420

Received: 2021-03-4  

Fund supported: the NSFC.  11961005
the Opening Project of Guangdong Province Key Laboratory of Computational Science at Sun Yat-sen University.  2021021
the Guangdong University (New Generation Information Technology) Key Field Project.  2020ZDZX3019
the Guangzhou Science and Technology Plan Project.  202102080420

Abstract

In this paper, we study the asymptotic optimality of the quantized stationary policies for continuous-time Markov decision processes (CTMDPs) with Polish space and state-dependent discount factors. Firstly, the existence and uniqueness of the discounted optimal equation (DOE) and its solution are established. Secondly, the existence of the optimal deterministic stationary policies is proved under appropriate conditions. In addition, in order to discretize the action space, a series of quantization policies are constructed to approximate the optimal stationary policies of the discounted CTMDPs in general state (Polish) space by using the policies in finite action space. Finally, an example is given to illustrate the asymptotic approximation results of this paper.

Keywords: Continuous-time Markov decision processes ; State-dependent discount factors ; Discounted criterion ; Quantized stationary policies ; Asymptotic optimality

PDF (384KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

吴晓, 孔荫莹, 郭圳滨. Polish空间上的折扣马氏过程量子化策略的渐近优化. 数学物理学报[J], 2022, 42(2): 594-604 doi:

Wu Xiao, Kong Yinying, Guo Zhenbin. Asymptotic Optimality of Quantized Stationary Policies in Continuous-Time Markov Decision Processes with Polish Spaces. Acta Mathematica Scientia[J], 2022, 42(2): 594-604 doi:

1 引言

本文研究了无限阶段、带折扣因子的连续时间马尔可夫决策过程(CTMDPs), 其折扣因子依赖于系统状态, 且允许转移率和报酬率是无界的, 讨论了其量子化平稳策略的渐近最优性问题.

众所周知, 折扣CTMDPs作为一类重要的随机控制问题已经得到了广泛的研究. 一般来说, 根据折扣因子的不同形式, 无限阶段折扣CTMDPs大致可分为以下三种: (ⅰ) 具有常数折扣因子$ \alpha $, 参见文献[1-10]; (ⅱ) 折扣因子是可变的: 依赖于状态$ \alpha(x) $或依赖于状态和行动$ \alpha(x, a) $, 参见文献[11-14]; (ⅲ) 折扣因子是依赖于随机过程历史的函数, 参见文献[13]. 在现实世界中, 有许多折扣因子不是常数的模型, 例如: 不确定利率和人类偏好的经济学模型等. 因此, 本文将研究情形(ⅱ)下的可变折扣因子的CTMDPs模型.

对于MDPs的折扣准则, 现有文献集中在折扣最优方程和最优平稳策略的存在性研究, 例如, 文献[1, 4, 6, 7]中对CTMDPs的研究和文献[8-10, 13-15] 中对离散时间马氏决策过程(DTMDPs) 的研究. 然而, 上述文献研究的是带常数折扣因子的MDPs和可变折扣DTMDPs的折扣优化问题. 最近, 文献[16] 研究了依赖状态折扣因子的CDMDPs优化问题, 建立了折扣最优方程(DOE), 得到了最优平稳策略的存在性结论. 但是, 文献[16] 的策略类是限制在随机平稳策略类上. 鉴于此, 本文在其基础上, 将策略类推广到更一般的随机马氏策略类上来讨论, 利用一个新的证明方法, 也得到了折扣最优平稳策略的存在性, 而且我们的证明过程更简洁.

此外, 尽管最优策略的存在性得到了证明, 但是, 对于非有限的一般完备可分的状态与行动空间上(例如Polish空间), 最优平稳策略的计算变得非常困难. 因而, 从实践来看, 研究其最优平稳策略的逼近计算显得尤为重要. 对于有限状态和可数状态空间情形, 已经有一些逼近计算的方法, 参见文献[17-20]. 近来, 对无限Borel状态与行动空间, 文献[21, 22] 给出了DTMDPs随机控制中量子化平稳策略的渐近最优化. 受此启发, 我们将其思想引入到一般状态空间上的可变折扣CTMDPs, 得到了其量子化平稳策略的渐近最优化结论. 据我们所知, 对于具有可变(依赖状态)折扣因子的CTMDPs的渐近最优化问题尚未有研究.

因此, 本文包含两个主要贡献.

(a) 对于具有状态依赖折扣因子的CDMDPs, 我们将文献[16] 中的一些结果推广到所有随机马氏策略类上来讨论, 并通过引入新的随机控制过程, 简化了折扣最优平稳策略存在性的证明.

(b) 为了计算非有限(不可数) Polish状态和行动空间上的最优策略, 我们给出了量子化逼近计算方法, 并建立了量子化控制策略渐近最优的条件.

2 CTMDPs及其折扣最优化问题

考虑如下CTMDPs模型$ {\cal M} $

$ \begin{equation} {\cal M}:=\left\{ S, (A(x)\subseteq A, x\in S), q(\cdot|x, a), \alpha(x), r(x, a) \right\}, \end{equation} $

其中, $ S $为状态空间, $ A(x) $是可允许行动集, 且$ A $是紧行动空间. $ S $$ A $均假设为Polish空间(即完备可分度量空间), 其Borel $ \sigma $ -域分别为$ {\cal B}(S) $$ {\cal B}(A) $. $ A(x) $$ K:=\big\{(x, a)|x\in S, $$ a\in A(x)\big\} $分别是$ A $$ S\times A $的Borel子集. $ q(\cdot|x, a) $为转移率函数, 满足下述性质.

$ {\rm (P_1)} $对每个固定的$ (x, a)\in K $, $ q(\cdot|x, a) $$ {\cal B}(S) $上的符号测度, 且对每个固定的$ B\in {\cal B}(S) $, $ q(B|\cdot, \cdot) $$ K $上的一个Borel可测函数;

$ {\rm (P_2)} $对所有$ (x, a)\in K $$ x \notin B\in {\cal B}(S) $, 有$ 0 \leq q(B|x, a)<\infty $;

$ {\rm (P_3)} $$ q(\cdot|x, a) $是保守的, 也即是, 对所有$ (x, a)\in K $$ q(S|x, a)=0 $, 从而

$ {\rm (P_4)} $模型(2.1) 是稳定的, 也即是, 对每个$ x\in S $, 有

折扣因子$ \alpha(x) $$ S $上的非负可测函数. 最后, 报酬函数$ r(x, a) $$ K $上的Borel可测函数, 且假设其是无界的, 因而它也可以被视为一个成本率, 而不仅仅是一个报酬率.

定义2.1   由随机核$ \pi_t $构成的集族$ \pi:=(\pi_t, t\geq 0) $称为一个随机马氏策略, 若其满足

$ {\rm (a)} $对每个$ t\geq 0 $, $ \pi_t $是给定$ S $定义在$ A $上的一个随机核, 使得对所有$ x\in S $$ \pi_t(A(x)|x)=1 $;

$ {\rm (b)} $对每个$ \Gamma\in{\cal B}(A) $$ x\in S $, $ \pi_t(\Gamma|x) $$ t\geq 0 $上的$ {\rm Borel} $可测函数.

所有随机马氏策略构成的集合记为$ \Pi $.

定义2.2   一随机马氏策略$ \pi=(\pi_t, t\geq 0) $称为是随机平稳的, 如果存在给定$ S $定义在$ A $上的一个随机核$ \varphi $, 使得对所有$ t\geq 0 $$ x\in S $, 有$ \pi_t(\cdot|x)=\varphi(\cdot|x) $. 此时, 策略$ \pi $也被记作$ \varphi $. 所有随机平稳策略构成的集合记为$ \Phi $.

定义2.3   一随机平稳策略$ \varphi\in\Phi $称为是(确定) 平稳的, 如果存在$ S $上的可测函数$ f $ ($ f(x)\in A(x) $), 使得对所有$ x\in S $, 有$ \varphi(\{f(x)\}|x)\equiv 1 $. 此时, 策略$ \varphi $也被记作$ f $. 所有(确定) 平稳策略构成的集合记为$ {F} $.

显然, $ {F}\subset \Phi \subset \Pi $, 且对每个$ \pi=(\pi_t, t\geq 0)\in\Pi $, $ x\in S $$ B\in {\cal B}(S) $, 我们分别定义转移率$ q_\pi(\cdot|x, \pi_t) $和报酬率$ r_\pi(x, \pi_t) $

$ \begin{equation} q_\pi(B|x, \pi_t):=\int_{A(x)}q(B|x, a)\pi_t({\rm d}a|x), \ \ r_\pi(x, \pi_t):=\int_{A(x)}r(x, a)\pi_t({\rm d}a|x). \end{equation} $

通常, 也分别记作$ q(B|x, \pi_t) $$ r(x, \pi_t) $. 而且, 对每个$ \varphi\in\Phi $, 定义其转移率和报酬函数为

$ \begin{equation} q(B|x, \varphi):=\int_{A(x)}q(B|x, a)\varphi({\rm d}a|x), \ \ r(x, \varphi):=\int_{A(x)}r(x, a)\varphi({\rm d}a|x). \end{equation} $

特别地, 当$ \varphi=f\in {F} $时, 分别记其为$ q(B|x, f) $$ r(x, f) $, 也即是

此外, 对每个$ x\in S $, 我们记$ q(x, f):=-q(\{x\}|x, f(x)) $.

对任一策略$ \pi=(\pi_t, t\geq 0)\in\Pi $, $ q(\cdot|x, \pi_t) $也被称作无穷小生成元(参见文献[1]). 众所周知, 任意依赖$ \pi $的转移函数$ \tilde{p}_\pi(s, x, t, B) $被称为以$ q(\cdot|x, \pi_t) $为转移率的$ Q $ -过程, 如果对所有$ x\in S $$ B\in {\cal B}(S) $, 其满足

其中, $ \delta_x(B) $$ x\in S $上的Dirac测度. 由文献[4], 存在一个以$ q(\cdot|x, \pi_t) $为转移率的最小的$ Q $ -过程$ p^{\min}_\pi(s, x, t, B) $, 但其可能不是正则的, 即对某个$ x\in S $$ t\geq s \geq 0 $, 可能成立$ p^{\min}_\pi(s, x, t, S)<1 $. 为了确保此$ Q $ -过程的正则性, 我们需要如下“漂移条件”.

假设2.1  假设存在$ S $上的一可测函数$ w_1\geq 1 $, 以及常数$ c_1\neq 0 $, $ b_1\geq 0 $$ M_q>0 $, 使得

$ \rm (a) $对所有$ (x, a)\in K $, 有$ \int_{S}w_1(y)q({\rm d}y|x, a)\leq c_1w_1(x)+b_1 $;

$ \rm (b) $对每个$ x\in S $, 有$ q^*(x)\leq M_qw_1(x) $.

注2.1   (a) 假设2.1(a) 中的函数$ w $是为了保证最优值函数的$ w $-有界性(见下文), 且由文献[4] 的评论2.2(b), 假设2.1是文献[23] 中“漂移条件”的推广. 另外, 假设2.1(b) 是为了确保$ Q $ -过程的正则性, 且当转移率是有界(即$ \sup\limits_{x\in S}q^*(x)<\infty $) 的时候, 此假设条件是不需要的.

$ \rm (b) $由文献[4] 中的定理3.2, 在假设2.1下, 有$ p^{\min}_\pi(s, x, t, S)\equiv 1 $. 因而, 以$ q(\cdot|x, \pi_t) $为转移率的$ Q $ -过程是正则的、唯一的. 因此, 我们简记$ p^{\min}_\pi(s, x, t, B) $$ p_\pi(s, x, t, B) $. 由于我们讨论初始时刻为$ s=0 $的情形, 从而简记$ p_\pi(0, x, t, B) $$ p_\pi(x, t, B) $.

由文献[1, 5] 可知, 对每个$ \pi=(\pi_t, t\geq 0)\in\Pi $和初始状态$ x\in S $, 存在唯一的概率空间$ (\Omega, {\cal B}(\Omega), P_{x}^{\pi}) $ (其概率测度$ P_{x}^{\pi} $$ p_\pi(x, t, B) $完全决定) 和一状态与行动空间$ \{x(t), a(t), t\geq 0\} $, 其转移概率函数为$ p_\pi(x, t, B) $, 使得

$ P_{x}^{\pi} $的期望算子记为$ E_{x}^{\pi} $, 且对每个$ x\in S $, $ \pi\in \Pi $$ t\geq 0 $, 期望报酬记为

对每个$ \pi\in \Pi $$ x\in S $, 期望折扣报酬准则定义为

且相应的最优值函数为

并且, 策略$ \pi^*\in\Pi $称为最优策略, 若对所有$ x\in S $$ \pi\in \Pi $, 有$ J(x, \pi^*)\geq J(x, \pi) $.

3 最优平稳策略的存在性

注意到, 对$ S $上任一给定的可测函数$ w\geq 1 $, $ S $上的函数$ v $被称作是$ w $ -有界的, 如果其加权范数$ ||v||_w := \sup\limits_{x\in S} |\frac{v(x)}{w(x)}| $是有限的. 此函数$ w $被称为是权函数. 显然, 对$ S $上的所有实值可测函数$ v $构成的集合$ B_w(S):=\{v: ||v||_w<\infty\} $是一Banach空间. 为了保证最优值函数的有限性, 还需如下假设条件.

假设3.1   让$ w_1 $$ c_1 $如假设2.1所示. 对每个$ x \in S $, 假设下列陈述成立.

$ \rm (a) $$ A(x) $是一紧集;

$ \rm (b) $$ r(x, a) $$ a\in A(x) $上的连续函数, 且对每个$ (x, a)\in K $, 存在常数$ M_1>0 $, 使得$ |r(x, a)|\leq M_1w_1(x) $;

$ \rm (c) $折扣因子$ \alpha(x) $$ S $上的连续函数, 且存在常数$ \alpha_0>c_1 $, 使得$ \alpha(x)\geq \alpha_0>c_1 $;

$ \rm (d) $$ S $上的任一有界可测函数$ u(x) $, $ \int_Su(y)q({\rm d}y|x, a) $$ \int_S w_1(y)q({\rm d}y|x, a) $$ a\in A(x) $上连续;

$ \rm (e) $存在$ S $上的一非负可测函数$ w_2(x) $, 和常数$ c_2> 0, b_2 \geq 0 $$ M_2 > 0 $, 使得对所有$ x\in S $$ a\in A(x) $, 有$ q^*(x)w_1(x) \leq M_2w_2(x) $$ \int_S w_2(y)q({\rm d}y|x, a) \leq c_2w_2(x) + b_2 $.

对每个$ x \in S $, 令$ m(x) $$ S $上的任一正可测函数, 使得$ m(x)\geq q^*(x) \geq 0 $, 且

$ \begin{equation} P(B|x, a) :=\frac{q(B|x, a)}{m(x)}+ \delta_x(B), \ \ \ \forall B\in {\cal B}(S), \ (x, a)\in K, \end{equation} $

其中, $ \delta_x(B) $是Dirac测度. 显然, 对每个$ (x, a) \in K $, $ P(\cdot|x, a) $$ S $上的概率测度. 对任一$ u\in B_{w_1}(S) $, 定义算子$ B_{w_1}(S) $上的算子$ T $

且定义一递归数列$ \{u_n, n \geq 0\} $

下面, 给出折扣最优方程(DOE).

定理3.1   在假设2.1和3.1(b)-(c) 下, 以下断言成立.

$ \rm (a) $对所有$ x\in S $, $ \pi\in \Pi $$ J(\cdot, \pi)\in B_{w_1}(S) $, 有

$ \rm (b) $$ { } u^*:=\lim\limits_{n\rightarrow \infty}u_n $, 则有$ u^*\in B_{w_1}(S) $, 且它是下列折扣最优方程(DOE)的解

$ \begin{eqnarray} \alpha(x)u(x)=\sup\limits_{a\in A(x)}\bigg\{r(x, a)+\int_Su(y)q({\rm d}y|x, a)\bigg\}, \ \ \ \forall x\in S. \end{eqnarray} $

   $ \rm (a) $由假设条件, 得

其中, 由文献[4] 的定理3.2(b) 可得最后一个不等式成立. 因此, 对每个$ x\in S $, 有$ J(x, \pi)\in B_{w_1}(S) $, 从而(a) 成立.

$ \rm (b) $首先, 我们证明$ \{u_n\} $是单调非减的. 事实上, 由直接计算可得

而且, 易知算子$ T $是单调非减的. 因而$ \{u_n\} $也是单调非减的, 从而, 对所有$ n\geq 0 $, 有$ { } u^*:=\lim_{n\rightarrow \infty}u_n\geq u_n $.

接着, 我们证明$ u^*\in B_{w_1}(S) $. 注意到

于是, 由归纳法可知, 对所有$ n\geq 1 $, 有

因此

$ u^*\in B_{w_1}(S) $.

最后, 我们证明$ Tu^*=u^* $. 一方面, 由$ T $$ u_n $的单调性, 对所有$ n\geq 0 $, 有$ Tu^*\geq Tu_n=u_{n+1} $, 从而$ Tu^*\geq u^* $. 另一方面, 由算子$ T $的定义, 可得

于是, 让$ n\rightarrow \infty $, 由文献[9] 的引理8.3.7, 可知

从而$ u^*\geq Tu^* $. 因此, 得到$ Tu^*=u^* $, 即$ u^* $方程(3.2) (DOE) 的解.

注3.1   定理3.1既是文献[4] 定理3.3(a)-(b) 中具有常数折扣因子的控制模型相关结论的推广, 也是文献[16] 中相关问题的推广(在文献[16] 中所讨论的策略类是随机平稳策略类, 即$ \pi\in \Phi $).

下面的引理3.1是文献[16] 中定理3.2的直接结论.

引理3.1   在假设2.1和3.1下, 对每个$ x\in S $$ \varphi\in\Phi $, 期望折扣报酬准则$ J(x, \varphi) $是下列方程的唯一解

引理3.2   在假设2.1和3.1下, 对每个$ x\in S $, $ \varphi\in\Phi $$ u\in B_{w_1}(S) $, 以下断言成立.

$ \rm (a) $

$ \begin{eqnarray} \alpha(x)u(x)\geq r(x, \varphi)+\int_Su(y)q({\rm d}y|x, \varphi), \end{eqnarray} $

$ u(x)\geq J(x, \varphi) $.

$ \rm (b) $

$ u(x) \leq J(x, \varphi) $.

   由(3.3) 式, 存在$ S $上的非负可测函数$ v(x) $, 使得

现在, 令$ \bar{r}(x, a)=r(x, a)+v(x) $, 可得下列新的马氏决策过程

$ \begin{eqnarray} \bar{{\cal M}} := \left\{ S, (A(x)\subseteq A, x\in S), q(\cdot|x, a), \alpha(x), \bar{r}(x, a) \right\}, \end{eqnarray} $

其中, 仅报酬函数与(2.1) 式中的不一致, 其余元素组均相同. 因而, 对每个$ x\in S $$ \varphi\in\Phi $, 新马氏决策过程(3.4) 的期望折扣报酬函数为

由引理3.1, 可得$ u(x)=\bar{J}(x, \varphi)\geq J(x, \varphi) $, 于是(a) 成立.

同理可证(b) 也成立.

注3.2   引理3.2是文献[16] 中的引理6.3的推广: 将常数折扣问题推广到了可变折扣、将确定平稳策略类上的研究推广到了随机平稳策略类上.

定理3.2   在假设2.1和3.1下, 对每个$ x\in S $, 最优值函数$ J^*(x) $是方程(3.2) (DOE) 的解, 且存在一(确定) 平稳策略$ f^*\in {F} $, 使得

   由定理3.1(b), 对每个$ x\in S $$ \pi\in \Pi $, 有

联立引理3.2(a) 可得$ u^*(x)\geq J(x, \pi) $, 于是$ u^*(x)\geq J^*(x) $. 注意到$ \int_Su^*(y)q({\rm d}y|x, a) $$ a\in A(x) $上是上半连续的, 则由[9] 中的引理8.3.8可得, 存在策略$ f^*\in {F} $, 使得对所有$ x\in S $

因此, 由引理3.1可得$ u^*(x)=J(x, f^*) $.

注3.3   $ \rm (a) $定理3.2说明了最优值函数是折扣最优方程(3.2)的解, 且保证了最优确定平稳策略的存在性.

$ \rm (b) $定理3.2的证明过程比文献[9] 定理3.3中更简洁.

4 量子化平稳策略的渐近优化

本节中, 我们将给出一个最优策略的量子化逼近计算: 对行动空间进行“离散化”, 以便构造一列“量子化策略”, 用量子化最优平稳策略去逼近(2.1) 式中CTMDPs模型的最优平稳策略. 为此, 我们先给出量子化和量子化平稳策略的定义.

定义4.1   可测函数$ f: S\rightarrow A $被称为是从$ S $$ A $的量子化, 若$ f(S) := \{f(x) \in A : x \in S\} $是有限的. 记$ {\cal F} $为从$ S $$ A $的所有量子化构成的集合.

定义4.2   一个策略被称为是确定平稳量子化策略, 若存在一给定$ S $定义在$ A $上的随机核序列$ \pi=\{\pi_n, n\geq 0\} $, 使得对所有的$ n $和某个$ f \in {\cal F} $, 有$ \pi_n(\cdot|x) = \delta_{f(x)}(\cdot) $, 其中$ \delta_{f(x)}(\cdot) $是Dirac测度.

对任意有限集$ \Lambda \subset A $, 记$ {\cal F}(\Lambda) $为具有范围$ \Lambda $的所有量子化的集合, 且记$ S{\cal F}(\Lambda) $为由$ {\cal F}(\Lambda) $导出的所有确定性平稳量子化策略的集合.

记定义在$ A $上的度量为$ d_A $, 则由紧性可知, $ A $是完全有界的. 从而, 对任一固定的$ k\geq 1 $, 存在一有限点集$ \{a_i\}_{i=1}^{n_k} $, 使得对所有$ a\in A $, 有

其中, $ \{a_i\}_{i=1}^{n_k} $被称为是$ A $$ \frac{1}{k} $ -网. 由此, 对任一确定平稳策略$ f\in {F} $, 我们可以构造一列量子化策略来逼近它, 具体方法如下.

引理4.1 (量子化策略的构造)   令$ \Lambda_k:=\{a_i\}_{i=1}^{n_k} $$ A $$ \frac{1}{k} $ -网, 对每个$ x\in S $和确定平稳策略$ f\in {F} $, 定义

$ \{f_k\}_{k\geq 1} $是一确定平稳量子化策略列, 且当$ k\rightarrow \infty $时, $ f_k $一致收敛到$ f $.

   由文献[21, Section III] 可知, 引理4.1显然成立.

我们也称$ \{f_k\}_{k\geq 1} $$ f $的量子化逼近. 下面, 我们将证明其期望折扣报酬也满足此逼近. 为此, 我们还需以下假设条件.

假设4.1   让$ c_1 $如假设2.1所示, 对每个$ x \in S $, $ B\in {\cal B}(S) $$ x\notin B $, 有$ q(\{x\}|x, a) $$ q(B|x, a) $$ a\in A(x) $上逐集连续, 也即是, 若$ a_k\rightarrow a $, 则对所有$ x \in S $, 有$ q(\cdot|x, a_n) $依集合收敛到$ q(\cdot|x, a) $.

引理4.2   若假设3.1和4.1成立, 令$ f\in {F} $是模型(2.1) 的一确定性平稳策略, 且$ \{f_k\}_{k\geq 1} $$ f $的量子化逼近策略列(如引理4.1所示), 则对每个$ x\in S $, 策略测度$ \{P_{x}^{f_k}\} $弱收敛到$ \{P_{x}^{f}\} $. 因此, 有

   类似于文献[21]中命题3.1的证明, 且由假设4.1和策略测度$ P_{x}^{f} $的定义(参见文献[6] 中Section 2.3或文献[5] 中的Section II), 易知引理4.2成立.

现在, 给出确定平稳量子化策略的期望折扣报酬的逼近结果.

定理4.1   假设2.1, 3.1和4.1成立, 令$ f\in {F} $是模型(2.1) 的一确定性平稳策略, 且如引理4.1所示, $ \{f_k\}_{k\geq 1} $$ f $的量子化逼近策略列, 则对每个$ x\in S $, 有

   由期望折扣报酬准则的定义, 有

$ \begin{eqnarray} |J(x, f_k)-J(x, f)| &=& \bigg|\int_{0}^\infty e^{-\int_{0}^{t}\alpha(x(s)){\rm d}s}\big[E_{x}^{f_k}r(x(t), f_k(x(t))) - E_{x}^{f}r(x(t), f(x(t)))\big] {\rm d}t\bigg|\\ &\leq& \int_{0}^T e^{-\alpha_0t}\big|E_{x}^{f_k}r(x(t), f_k(x(t)))-E_{x}^{f}r(x(t), f(x(t)))\big|{\rm d}t\\ && +\int_{T}^\infty e^{-\alpha_0t}\big|E_{x}^{f_k}r(x(t), f_k(x(t)))-E_{x}^{f}r(x(t), f(x(t)))\big|{\rm d}t. \end{eqnarray} $

注意到, 由引理4.1和4.2, 我们有

从而

另一方面, 我们有

其中, 最后一个不等式成立是由于文献[4] 的定理3.2(b). 于是, 当$ T\rightarrow \infty $时, 有

由(4.1) 式, 可得

定理4.1得证.

5 一个例子

考虑如下CTMDPs模型. 状态空间为$ S:=(-\infty, \infty) $, 对每个$ x \in S $, 行动空间为

其中, $ L_1>0 $. 对每个$ (x, a)\in K $$ B \in {\cal B}(S) $, 转移率函数为

其中, $ \pi $是圆周率, $ \delta_x(\cdot) $是点$ x $处的Dirac测度. 显然, $ q(\cdot|x, a) $是一转移率函数. 报酬率为

且对每个$ x \in S $, 折扣因子为$ \alpha(x) := \frac{1}{|x|+1}+ \beta $, 此处, 常数$ \beta > \frac{L_1}{2} $. 假设常数$ n_k (k=0, 1, 2) $满足

(ⅰ) $ n_0>0, n_1>1+\frac{1}{\beta} $$ n_2=\frac{\rho^2}{4(\beta\rho-1)} $, 其中, $ \rho:=n_1(\beta+1)-(\beta+2) $;

(ⅱ) $ \rho L_2>\rho L_1>2(\beta\rho-1) $.

$ w_1(x)=x^2+1 $, $ w_2(x)=x^4+1 $$ q^*(x)=L_1(|x|+1) $, 于是, 由文献[15, 命题5.2] 可知其最优值函数为

且最优平稳策略为

现在, 我们构造此最优策略$ f^* $的一列量子化策略如下

其中, $ U:=\frac{\rho L_1}{2(\beta\rho-1)}-1 $$ V:=\frac{\rho L_2}{2(\beta\rho-1)}-1 $. 从而, 由定理4.1可得: 对每个$ x\in S $, 有$ f_k^*(x)\rightarrow f^*(x) $$ { } \lim\limits_{k\rightarrow \infty}J(x, f_k^*)=J(x, f^*) $.

参考文献

Journals Doshi B T .

Continuous-time control of Markov processes on an arbitrary state space: discounted rewards

Ann Stat, 1976, 4: 1219- 1235

[本文引用: 4]

Dynkin E B , Yushkevich A A . Controlled Markov Processes. New York: Springer, 1979

Feinberg E A .

Continuous-time jump Markov decision processes: A discrete-event approach

Math Oper Res, 2004, 29: 492- 524

DOI:10.1287/moor.1040.0089     

Guo X P .

Continuous-time Markov decision processes with discounted rewards: The case of Polish spaces

Math Oper Res, 2007, 32 (1): 73- 87

DOI:10.1287/moor.1060.0210      [本文引用: 7]

Guo X P .

Constrained optimization for average cost continuous-time Markov decision processes

IEEE Trans Autom Control, 2007, 52 (6): 1139- 1143

DOI:10.1109/TAC.2007.899040      [本文引用: 2]

Guo X P , Hernández-Lerma O . Continuous-time Markov Decision Processes: Theory and Applications. Berlin: Springer, 2009

[本文引用: 2]

Guo X P , Song X Y .

Discounted continuous-time constrained Markov decision processes in Polish spaces

Ann Appl Probab, 2011, 21 (5): 2016- 2049

[本文引用: 1]

Hernández-Lerma O , Lasserre J B . Discrete-Time Markov Control Processes. New York: Springer, 1996

[本文引用: 1]

Hernández-Lerma O , Lasserre J B . Further Topics on Discrete-Time Markov Control Processes. New York: Springer, 1999

[本文引用: 3]

Puterman M L . Markov Decision Processes. New York: Wiley, 1994

[本文引用: 2]

Feinberg E A , Shwartz A .

Markov decision models with weighted discounted criteria

Math Oper Res, 1994, 19 (1): 152- 168

DOI:10.1287/moor.19.1.152      [本文引用: 1]

González-Hernández J , López-Martínez R R , Pérez-Hernández J R .

Markov control processes with randomized discounted cost

Math Methods Oper Res, 2007, 65: 27- 44

DOI:10.1007/s00186-006-0092-2     

Wu X , Guo X P .

First passage optimality and variance minimization of Markov decision processes with varying discount factors

J Appl Probab, 2015, 52 (2): 441- 456

DOI:10.1239/jap/1437658608      [本文引用: 2]

Wu X , Zhang J Y .

Finite approximation of the first passage models for discrete-time Markov decision processes with varying discount factors

Discrete Event Dyn Syst, 2016, 26 (4): 669- 683

DOI:10.1007/s10626-014-0209-3      [本文引用: 1]

Hinderer K . Foundations of Non Stationary Dynamic Programming with Discrete Time Parameter. New York: Springer, 1970

[本文引用: 2]

Ye L E , Guo X P .

Continuous-time Markov decision processes with state-dependent discount factors

Acta Appl Math, 2012, 121: 5- 27

DOI:10.1007/s10440-012-9669-3      [本文引用: 7]

Bertsekas D , Tsitsiklis J . Neuro-Dynammic Programming. Boston: Athena Scientific, 1996

[本文引用: 1]

Cavazos-Cadena R .

Finite-state approximations for denumerable state discounted Markov decision processes

Appl Math Optim, 1986, 14: 1- 26

DOI:10.1007/BF01442225     

Dufour F , Prieto-Rumeau T .

Finite linear programming approximations of constrained discounted Markov decision processes

SIAM J Control Optim, 2013, 51 (2): 1298- 1324

DOI:10.1137/120867925     

Wu X , Guo X P .

Convergence of Markov decision processes with constraints and state-action dependent discount factors

Sci China Math, 2020, 63 (1): 167- 182

DOI:10.1007/s11425-017-9292-1      [本文引用: 1]

Saldi N , Linder T , Yuksel S .

Asymptotic optimality and rates of convergence of quantized stationary policies in stochastic control

IEEE Transactions on Automatic Control, 2014, 60 (2): 553- 558

[本文引用: 3]

Saldi N , Linder T , Yuksel S .

Near optimality of quantized policies in stochastic control under weak continuity conditions

J Math Anal Appl, 2016, 435: 321- 337

DOI:10.1016/j.jmaa.2015.10.008      [本文引用: 1]

Lund R B , Meyn S P , Tweedie R L .

Computable exponential convergence rates for stochastically ordered Markov processes

Ann Appl Probab, 1996, 6: 218- 237

[本文引用: 1]

/