数学物理学报  2016, Vol. 36 Issue (5): 997-1009   PDF    
扩展功能
加入收藏夹
复制引文信息
加入引用管理器
Email Alert
RSS
本文作者相关文章
侯振挺
马忆
刘路
基于向前方程的平稳分布参数估计
侯振挺, 马忆, 刘路     
中南大学数学与统计学院 长沙 410000
摘要:该文研究利用随机微分方程的平稳分布满足的微分方程给出平均场随机微分方程的参数估计方法$dX(t)=b({{\mu }^{N}},\theta )dt+\sigma (X(t))dB(t)$,其中θ是待估计的参数.μN是N个个体的经验分布.b(μ,θ)关于μμ=p处附近(τ-拓扑)连续.其中p是该过程的唯一平稳分布.特别地,该文研究以下模型的参数估计问题$dX(t)=(a\theta (X(t))+b\langle F,\mu (t)\rangle )dt+\sigma (X(t))dB(t)$,其中a,b是有待估计的模型的参数.该文研究存在平稳分布时的参数估计问题.而数据则是若干(少量)时刻上数据点的经验分布,这些经验分布由很多个个体的数据构成.
关键词平均场随机过程     向前方程     参数估计    
Estimating Parameters of Stationary Distribution Using Forward Equation
Hou Zhenting, Ma Yi, Liu Lu     
Department of Mathematics and Statistics, Central South University, Changsha 410000
Abstract: In this paper we give an estimation of the parameters of the stationary distribution of some mean field diffusion process using the differential equations of that distribution. The mean field stochastic process involved is $dX(t)=b({{\mu }^{N}},\theta )dt+\sigma (X(t))dB(t)$, where θ is parameters to be estimated. μN is the empirical distribution of the N subjects consisting the mean field stochastic process. b(μ,θ) is continuous wrt μ at μ=p(τ-topology). Where p is the unique stationary distribution of the process. We restrict ourself to the study of the parameter estimation problem of the following model $dX(t)=(a\theta (X(t))+b\langle F,\mu (t)\rangle )dt+\sigma (X(t))dB(t)$, where a,b are parameters to be estimated. The data is the empirical distribution of large amount of subjects consisting the process on several time points.
Key words: Meanfield stochastic process     Kolmogorov forward equation     Parameter estimation    
1 引言

本文中,我们研究以下模型的参数估计问题

$\label{estmodel1} {d}X(t) = (a\theta(X(t))+ b\langle F,\mu(t)\rangle ){d}t + \sigma(X(t)){d}B(t),$ (1.1)

其中a,b是有待估计的模型的参数. 而$\mu(t) $是$X(\cdot)$在t时刻的概率密度,$\langle F,\mu(t)\rangle $表示积分$\int F(x)\mu(t)({d}x)$.

若观测数据是经验分布,则这些观测本身构成一个随机过程,也称为人口过程 、经验分布过程(population process,empirical process). 这种过程在地理学、生态学、军事、粒子系统的研究中经常出现[1-4, 6]. 在这些研究中,识别个体是技术上很困难的(由于个体数目 极其庞大或其他技术原因),例如在两次快照中判断两个粒子是否是 同一个粒子.

我们研究存在平稳分布时的参数估计问题. 理论上,可以通过解相应的Kolmogorov向后方程得到平稳分布然后施用极大似然的估计方法. 然而Kolmogorov向后方程,如同多数偏微分方程一样,一般没有显式解. 我们给出一种不需要求解平稳分布的方程,但利用这个方程的估计方法. 这种方法利用平稳分布所满足方程的对偶方程. 亦即,对某个微分算子A,以及任何足够光滑的函数f,$\langle {{p}_{t}},Af\rangle =\frac{d}{dt}E[\langle {{p}_{t}},f\rangle]$. 对平稳分布p,则显然有$\langle p,Af\rangle $ = 0. 注意到算子A与a,b有关. 而$\langle p,Af\rangle $可以用显然的矩估计方法估计. 从而为了检验a',c'是否为待定参数a,c的真值,选择充分多的函数f1,$\cdots$,f_k,检验$\langle p,Af_i\rangle$ 是否为0即可.

显然这种估计方法适用于所有已知信息为待定分布的微分方程的模型. 而这种情况在所有由布朗运动驱动的模型中都会出现. 此外我们的估计方法要求参与模型的个体充分多(不论是否有平均场效应),亦即能够获得分布的近似. 我们的方法是稳健的,注意到如果真实的分布$\tilde{p}$与p充分接近. 则上述检验$\langle \tilde{p},Af_i\rangle$是否为0的检验同样近似的有效. 而所估计的参数一般是接近于真实参数的(接近程度自然与p和$\tilde{p}有关)$.

在第2章中,我们说明极大似然估计的局限性. 第3章中我们详细叙述所提出的方法,包括如何选择fi而使得估计的效率提高等问题. 第3.1章中我们讨论过度拟合的问题,亦即我们不能够选择过多的fi,或者说,候选的fi应当限制在一个适当的函数空间中. 我们说明,选择最优的fi的问题转化为一个带线性约束的二次规划问题.

2 平稳分布的方程

对于一维的情形,众所周知,若模型(1.1)存在平稳分布,则该平稳分布的密度为

$\begin{align} & p(x)=\frac{2k(a,b,{{\mu }_{0}})}{\sigma {{(x)}^{2}}}\exp \{\int_{0}^{x}{\frac{2a\theta (z)+2b{{\mu }_{0}}}{\sigma {{(z)}^{2}}}}dz\} \\ & =k(a,b,{{\mu }_{0}})H(x;a,b,{{\mu }_{0}}),\\ \end{align}$ (2.1)

其中$\mu$0使得$\int F(x)p(x){d}x = \mu$0,

$k(a,b,{{\mu }_{0}})={{(\int_{\mathbb{R}}{H}(x;a,b,{{\mu }_{0}})dx)}^{-1}}.$

令$c = b\mu$0.注意到这个平稳分布的形式只与$\theta(x)$的形式有关,而与F(x)的形式无关. F对p的影响仅仅通过$\mu$0来体现.

简单起见,现在假设有N个独立同分布且分布为p的随机变量作为观测到的数据. 众所周知在均方误差的度量标准下,极大似然估计是渐进最优的. 因此对a,c的一个显然的估计是极大似然估计,再通过$\widehat{{{\mu }_{0}}}=\frac{1}{N}\sum\limits_{i=1}^{N}{F}(x_{i}^{N})$作为对\mu0的估计. 若$\mu$0$\neq$ 0则$\hat{b}=\frac{{{c}_{MLE}}}{{{{\hat{\mu }}}_{0}}}$是对b的一个估计.

${{h}_{1}}(x)=\int_{0}^{x}{\frac{2\theta (z)}{\sigma {{(z)}^{2}}}}dz,~~{{h}_{2}}(x)=\int_{0}^{x}{\frac{2}{\sigma {{(z)}^{2}}}}dz.$

似然函数写作

$l(X;a,c)=a(\sum\limits_{i=1}^{N}{{{h}_{1}}}(x_{i}^{N}))+c(\sum\limits_{i=1}^{N}{{{h}_{2}}}(x_{i}^{N}))+N\log (k(a,c)).$ (2.2)

从而极大似然估计为

$ (\hat{a}_{MLE},\hat{c}_{MLE})= \arg\max\limits_{a,c} l(X;a,c). $

l(X;a,c)对a,c求导有如下两个方程

$\left\{ \begin{array}{*{35}{l}} \frac{1}{N}\sum\limits_{i=1}^{N}{{{h}_{1}}}(x_{i}^{N})-\frac{\int_{\mathbb{R}}{H}(x;a,c){{h}_{1}}(x)dx}{\int_{\mathbb{R}}{H}(x;a,c)dx}=0,\\ \frac{1}{N}\sum\limits_{i=1}^{N}{{{h}_{2}}}(x_{i}^{N})-\frac{\int_{\mathbb{R}}{H}(x;a,c){{h}_{2}}(x)dx}{\int_{\mathbb{R}}{H}(x;a,c)dx}=0. \\ \end{array} \right.$ (2.3)

上述极大似然估计虽然渐进最优,但缺点是需要解方程(2.3),计算较为复杂.

对于多维Ito扩散,平稳分布满足方程

$\label{esteq2} \sum\limits_{i=1}^d\frac{\partial(p(x)(a_i\theta_i(x) +b_i\mu_{0i}))}{\partial x_i} +\frac{1}{2} \sum\limits_{i,j}\frac{\partial^2 (p(x)\sum\limits_{k=1}^d\sigma_{ik}(x)\sigma_{jk}(x))} {\partial x_i\partial x_j}=0.$$ (2.4)

该方程多数情况下求解复杂.

3 利用分布的方程

我们注意到,对于平稳分布p,$C_{0}^{2}({{\mathbb{R}}^{d}})$ 中的函数f,我们有

$\langle p,\frac{d}{dt}{{E}^{x}}[f(X(t))]\rangle =0=\langle p,Af\rangle ,$

其中A是模型(1.1)的生成子.

$ Af = \langle \nabla f,a\theta\rangle + \langle \nabla f,c\rangle + \frac{1}{2}\sum\limits_{i,j}^d\frac{\partial^2 f} {\partial x_i\partial x_j}(x)(\sigma \sigma^T)_{i,j}(x),$

其中$a\theta (\cdot )=({{a}_{1}}{{\theta }_{1}}(\cdot ),\cdots ,{{a}_{d}}{{\theta }_{d}}(\cdot ))$.

于是,对任意k>0,及f1,f2,$\cdots ,{{f}_{k}}\in C_{0}^{2}(\mathbb{R})$,以及正定$k\times k$矩阵C,我们考虑以下估计

$\begin{align} & {{(\hat{a},\hat{c})}_{f,C}}=\underset{a,c}{\mathop{\arg \min }}\,{{(\overline{\langle a,\theta \nabla f\rangle }+\overline{\langle c,\nabla f\rangle }+\frac{1}{2}\sum\limits_{i,j}^{d}{\frac{{{\partial }^{2}}f}{\partial {{x}_{i}}\partial {{x}_{j}}}}(x){{(\sigma {{\sigma }^{T}})}_{i,j}}(x))}^{T}} \\ & C(\overline{\langle a,\theta \nabla f\rangle }+\overline{\langle c,\nabla f\rangle }+\frac{1}{2}\sum\limits_{i,j}^{d}{\frac{{{\partial }^{2}}f}{\partial {{x}_{i}}\partial {{x}_{j}}}}(x){{(\sigma {{\sigma }^{T}})}_{i,j}}(x)),\\ \end{align}$ (3.1)

其中

$\begin{align} & \nabla f=(\nabla {{f}_{1}}(x),\nabla {{f}_{2}}(x),\cdots ,\nabla {{f}_{k}}(x)),\theta \nabla {{f}_{i}}=({{\theta }_{1}}\frac{\partial f}{\partial {{x}_{1}}},\cdots ,{{\theta }_{d}}\frac{\partial f}{\partial {{x}_{d}}}),\\ & \langle a,\theta \nabla f\rangle =(\langle a,\theta (x)\nabla {{f}_{1}}(x)\rangle ,\cdots ,\langle a,\theta (x)\nabla {{f}_{k}}(x)\rangle ),\\ & \frac{1}{2}\sum\limits_{i,j}^{d}{\frac{{{\partial }^{2}}f}{\partial {{x}_{i}}\partial {{x}_{j}}}}(x){{(\sigma {{\sigma }^{T}})}_{i,j}}(x) \\ & =(\frac{1}{2}\sum\limits_{i,j}^{d}{\frac{{{\partial }^{2}}{{f}_{1}}}{\partial {{x}_{i}}\partial {{x}_{j}}}}(x){{(\sigma {{\sigma }^{T}})}_{i,j}}(x),\cdots ,\frac{1}{2}\sum\limits_{i,j}^{d}{\frac{{{\partial }^{2}}{{f}_{k}}}{\partial {{x}_{i}}\partial {{x}_{j}}}}(x){{(\sigma {{\sigma }^{T}})}_{i,j}}(x)). \\ \end{align}$

为简化记号,令

$ \Delta_{\sigma} f = \frac{1}{2}\sum\limits_{i,j}^d\frac{\partial^2 f} {\partial x_i\partial x_j}(x)(\sigma \sigma^T)_{i,j}(x). $

对任意向量函数g(x),有

$ \overline{g} = \frac{1}{N}\sum\limits_{i=1}^N g(x^N_i). $

以下我们研究如何选取矩阵C和函数f_i使得估计的均方误差尽量小.

3.1 选择C和fi

设C =UDUT是正交分解. 注意到,对f 做变换,$\tilde{f} $= fU,则有

$\begin{align} & {{(\hat{a},\hat{c})}_{f,C}}=\underset{a,c}{\mathop{\arg \min }}\,{{(\overline{\langle a,\theta \nabla \tilde{f}\rangle }+\overline{\langle c,\nabla \tilde{f}\rangle }+\frac{1}{2}\sum\limits_{i,j}^{d}{\frac{{{\partial }^{2}}\tilde{f}}{\partial {{x}_{i}}\partial {{x}_{j}}}}(x){{(\sigma {{\sigma }^{T}})}_{i,j}}(x))}^{T}} \\ & D(\overline{\langle a,\theta \nabla \tilde{f}\rangle }+\overline{\langle c,\nabla \tilde{f}\rangle }+\frac{1}{2}\sum\limits_{i,j}^{d}{\frac{{{\partial }^{2}}\tilde{f}}{\partial {{x}_{i}}\partial {{x}_{j}}}}(x){{(\sigma {{\sigma }^{T}})}_{i,j}}(x)). \\ \end{align}$ (3.2)

因此,以下不妨假设C是正定$k\times k$对角矩阵

$C=\left[\begin{matrix} {{w}_{1}} & 0 & \cdots & ~~0 \\ 0 & ~~{{w}_{2}}~~ & \cdots & ~~0 \\ \cdots & {} & {} & {} \\ 0 & 0 & \cdots & ~~{{w}_{k}} \\ \end{matrix} \right].$

解(3.1)式有

$\sum\limits_{j\le k}{{{w}_{j}}}(\ {{(\hat{a},\hat{c})}^{T}}\overline{(\theta \nabla {{f}_{j}},\nabla {{f}_{j}})}+\overline{{{\Delta }_{\sigma }}{{f}_{j}}}\ ){{\overline{(\theta \nabla {{f}_{j}},\nabla {{f}_{j}})}}^{T}}=0.$ (3.3)

为进一步简化记号,对$f\in C_{0}^{2}({{\mathbb{R}}^{d}})$,令$X_f,Y_f,Z_f$表示$(\theta\nabla f(z),\nabla f(z)),\Delta_{\sigma}f_j(z),(\theta\nabla f,\nabla f,\Delta_\sigma f)$. 其中$z\sim p$. 对一列$f_j,j\leq K$,令$\overline{X_j},\overline{Y_j},\overline{Z_j}$,表示随机变量,$ \overline{(\theta\nabla f_j(z),\nabla f_j(z))},\overline{\Delta_{\sigma}f_j(z)},\overline{(\theta\nabla f,\nabla f,\Delta_\sigma f}$ 令(a,c) = $\alpha$. 对任意随机变量,令$\Delta $X = X - E(X).

注意到,$\alpha E(X_j)+E(Y_j)=0.$ 于是有

${{{\hat{\alpha }}}_{f,C}}-\alpha ={{(\sum\limits_{j\le k}{{{w}_{j}}}\overline{{{X}_{j}}}{{\overline{{{X}_{j}}}}^{T}})}^{-1}}\sum\limits_{j\le k}{{{w}_{j}}}({{\alpha }^{T}}\Delta \overline{{{X}_{j}}}+\Delta {{Y}_{j}})\overline{{{X}_{j}}}.$ (3.4)

从而,最小均方误差为

$\begin{align} & E[{{(\sum\limits_{j\le k}{{{w}_{j}}}({{\alpha }^{T}}\Delta \overline{{{X}_{j}}}+\Delta \overline{{{Y}_{j}}})\overline{{{X}_{j}}})}^{T}}{{(\sum\limits_{j\le k}{{{w}_{j}}}\overline{{{X}_{j}}}{{\overline{{{X}_{j}}}}^{T}})}^{-2}}(\sum\limits_{j\le k}{{{w}_{j}}}({{\alpha }^{T}}\Delta \overline{{{X}_{j}}}+\Delta \overline{{{Y}_{j}}})\overline{{{X}_{j}}})] \\ & \approx E[{{(\sum\limits_{j\le k}{{{w}_{j}}}({{\alpha }^{T}}\Delta \overline{{{X}_{j}}}+\Delta \overline{{{Y}_{j}}})E[\overline{{{X}_{j}}}])}^{T}}{{(\sum\limits_{j\le k}{{{w}_{j}}}E[\overline{{{X}_{j}}}]E{{[\overline{{{X}_{j}}}]}^{T}})}^{-2}} \\ & \times (\sum\limits_{j\le k}{{{w}_{j}}}({{\alpha }^{T}}\Delta \overline{{{X}_{j}}}+\Delta \overline{{{Y}_{j}}})E[\overline{{{X}_{j}}}])]. \\ \end{align}$ (3.5")

我们研究选择$f_j,C$使得

$\begin{align} & E[{{(\sum\limits_{j\le k}{{{w}_{j}}}({{\alpha }^{T}}\Delta \overline{{{X}_{j}}}+\Delta \overline{{{Y}_{j}}})E[\overline{{{X}_{j}}}])}^{T}}{{(\sum\limits_{j\le k}{{{w}_{j}}}E[\overline{{{X}_{j}}}]E{{[\overline{{{X}_{j}}}]}^{T}})}^{-2}} \\ & \times (\sum\limits_{j\le k}{{{w}_{j}}}({{\alpha }^{T}}\Delta \overline{{{X}_{j}}}+\Delta \overline{{{Y}_{j}}})E[\overline{{{X}_{j}}}])] \\ \end{align}$

极小.

首先我们建立以下引理.

引理3.1 设L是$C_{0}^{2}({{\mathbb{R}}^{d}})$上的一线性闭子空间. 设$f\in L$,有

$E[ \big(\ (\alpha,1)^T \Delta \overline{Z_f}\big)^2] = \inf\limits_{g\in L,E[ \overline{(\theta\nabla g,\nabla g)}]= E[ \overline{(\theta\nabla f,\nabla f)}]} \{E[ \big(\ (\alpha,1)^T( \Delta \overline{Z_g})\ \big)^2]\}.$ (3.6)

则 对任意$h\in L$,有

$E[\overline{(\theta \nabla h,\nabla h)}]=0\Rightarrow E[({{(\alpha ,1)}^{T}}\Delta \overline{{{Z}_{f}}})({{(\alpha ,1)}^{T}}\Delta \overline{{{Z}_{h}}})]=0.$ (3.7)

我们用$\overline{Z_f}$作为$E(\overline{Z_f})$的估计,注意到固定$f,E(\|\Delta \overline{{{Z}_{f}}}\|_{2}^{2})=O(1/N)$. 利用引理3.1,我们可以将选择$f_i,C$的问题简化.

设$\sum\limits_{j\leq k}w_j E{\overline{X_j}}E{\overline{X_j}^T} = V^T D V$是正交分解,正交基为$e_j,j\leq 2d. 对x\in {\Bbb R}^{2d},l_s(x) = (e_s,x)$,其中(,)表示内积. 令$L\{{{f}_{1}},\cdots ,{{f}_{k}}\}$表示$f_j,j\leq k$张成的线性闭子空间. 令

${{h}_{s}}=\underset{h\in L\{{{f}_{1}},\cdots ,{{f}_{k}}\},E[\overline{(\theta \nabla h,\nabla h)}]={{e}_{s}}}{\mathop{\arg \min }}\,E[{{({{(\alpha ,1)}^{T}}\Delta \overline{{{Z}_{h}}})}^{2}}].$ (3.8)

上式的唯一性由下面的引理3.3给出.

注意到在知道$\alpha,E(\Delta\overline{X_j}\Delta\overline{X_i}^T)$和$E[\overline{Z_i}]$的情况下求解$h_s$的问题不过是一个带有线性约束(2d个)的二次规划问题. 而$E(\Delta\overline{X_j}\Delta\overline{X_i}^T)$可以通过$\overline{X_j X_i^T}-\overline{X_j} \cdot \overline{X_i}^T$估计,$E[\overline{Z_i}]$可以通过$\overline{Z_i}$估计.

利用引理3.1,通过简单的计算,我们有

引理3.2

$\begin{align} & E[{{(\sum\limits_{j\le k}{{{w}_{j}}}({{\alpha }^{T}}\Delta \overline{{{X}_{j}}}+\Delta \overline{{{Y}_{j}}})E[\overline{{{X}_{j}}}])}^{T}}{{(\sum\limits_{j\le k}{{{w}_{j}}}E[\overline{{{X}_{j}}}]E{{[\overline{{{X}_{j}}}]}^{T}})}^{-2}} \\ & \times (\sum\limits_{j\le k}{{{w}_{j}}}({{\alpha }^{T}}\Delta \overline{{{X}_{j}}}+\Delta \overline{{{Y}_{j}}})E[\overline{{{X}_{j}}}])] \\ & \ge \sum\limits_{s\le 2d}{E}[{{({{(\alpha ,1)}^{T}}\Delta \overline{{{Z}_{{{h}_{s}}}}})}^{2}}]. \\ \end{align}$ (3.9)

并且,当$k=2d,(\forall j\leq k)w_j = 1,f_j = h_j$时等号成立.

从而问题转化为选择$e_i,i\leq 2d$,以及相应的$h_i$,使得(3.9)式右端最小. 然而我们可以进一步说明$e_i$的选取是无关紧要的.

引理3.3 设L是$C_{0}^{2}({{\mathbb{R}}^{2d}})$上的闭子空间. 对任意的$e\in {\Bbb R}^{2d}$,存在唯一的$h\in L$使得

$E[ \big((\alpha,1)^T \Delta \overline{Z_h}\big)^2] = \inf\limits_{ g\in L,E[ \overline{(\theta\nabla g,\nabla g)}]=e } \{E[ \big((\alpha,1)^T( \Delta \overline{Z_g})\big)^2]\}.$ (3.10)

令$X^{-1}_L(e)$表示将e映射为满足(3.10)式的L上函数h. 则有$X^{-1}_L$是线性的.

利用引理3.3可以看出

引理3.4 固定$C_{0}^{2}({{\mathbb{R}}^{2d}})$上的闭子空间L,对任意两组${\Bbb R}^{2d}$正交基e1,$\cdots,e_{1},e_{2d}',\cdots,e_{2d}',$ 令$h_i = X^{-1}_L(e_i),g_i = X^{-1}_L(e'_i)$有

$\sum\limits_{i\le 2d}{E}[{{({{(\alpha ,1)}^{T}}(\Delta \overline{{{Z}_{{{g}_{i}}}}}))}^{2}}]=\sum\limits_{i\le 2d}{E}[{{(\ {{(\alpha ,1)}^{T}}(\Delta \overline{{{Z}_{{{h}_{i}}}}}))}^{2}}].$

现在问题转化为,选择L,以及对一组${\Bbb R}^{2d}$上的基${{e}_{1}},\cdots ,{{e}_{2d}}$,计算$X_L^{-1}(e_i)$. 注意到 L不能太大,否则会产生过度拟合的问题.

计算$X_L^{-1}$ 的问题显然转化为一个随机二次规划问题(优化目标函数和线性约束是随机的). 我们在下一章中详细阐述.

3.2 随机二次规划

固定L的一组基,$ h_{1},\cdots,h_{l}$,对给定的某个$e\in {\Bbb R}^{2d}$,我们需要研究如何''计算" (估计)$ X_L^{-1}(e) $. 设$X_L^{-1}(e)=g$. 既然$g\in L$,则g是$h_i$的线性组合,设$g = \sum\limits_{i\leq l}x_ih_i$. 计算$X_L^{-1}(e)$也就是计算诸$x_i$.

约束$E[\overline{(\theta\nabla g,\nabla g)}]=e$显然转化为$x_i,i\leq l$的线性约束. 而极小化$E[\big((\alpha,1)^T(\Delta \overline{Z_{g_i}})\big)^2]$显然转化为一个$x_i,i\leq l$的二次优化问题,极小化$x^T C x$. 其中

${{C}_{ij}}=cov({{(\alpha ,1)}^{T}}\Delta \overline{{{Z}_{{{f}_{i}}}}},{{(\alpha ,1)}^{T}}\Delta \overline{{{Z}_{{{f}_{j}}}}}).$

注意到$E[\overline{(\theta\nabla g,\nabla g)}]$和C只能通过数据估计.

$\begin{align} & E[\overline{(\theta \nabla h,\nabla h)}]={{a}_{h}}=({{a}_{h,1}},{{a}_{h,2}},\cdots ,{{a}_{h,2d}}). \\ & E[\overline{(\theta \nabla {{h}_{i}},\nabla {{h}_{i}})}]={{a}_{i}}=({{a}_{i,1}},{{a}_{i,2}},\cdots ,{{a}_{i,2d}}).{{a}_{.,j}}=({{a}_{1,j}},{{a}_{2,j}},\cdots ,{{a}_{m,j}}). \\ \end{align}$

计算$X_L^{-1}(e)$的问题显然转化为以下二次规划问题

$\begin{align} & \min \ \ {{x}^{T}}Cx,\\ & s.t.\ \ \langle x,{{a}_{\cdot ,j}}\rangle =e(j),\ j\le 2d. \\ \end{align}$ (3.11)

而这个优化中的$C,a_i$将被替换为相应的估计,从而变为

$\min\ \ x^T \hat{C} x,\\ \nonumber {s.t.} \ \ \langle x,\hat{a}_{\cdot,j}\rangle = e(j) ,\ \ j\leq 2d,$ (3.12)

其中$ \hat{C} = (\hat{C}_{ij})_{i,j\leq m},\hat{C}_{ij}= {cov}_{sample}((\alpha,1)^T \Delta \overline{Z_{f_i}} ,(\alpha,1)^T \Delta \overline{Z_{f_j}}) ,\hat{a}_i = \overline{X_{f_i}}.$

由于只能用估计的$C,a_i$亦即$\hat{C},\hat{a}_i,$过大的L会导致过多的误差通过$\hat{C},\hat{a}_i,i\leq l$引入优化问题中.我们需要从L中选择一组最合适的子空间.我们接下来所做的类似于在线性规划中避免过度拟合的C_p统计量的推导.

4 避免过度拟合

现在,我们需要对给定的一组基,f1,$\cdots,f_m$,求解相应的随机二次规划问题.而这个随机规划问题中的目标函数中的二次型以及线性约束的系数都是需要估计的.

为了避免过度拟合,我们需要限制这组基的规模,亦即m. 对给定的一组基f1,$\cdots,f_m,$ 令

$L=span\{{{f}_{1}},\cdots ,{{f}_{m}}\},~{{{\hat{C}}}_{ij}}=co{{v}_{sample}}({{(\alpha ,1)}^{T}}\Delta \overline{{{Z}_{{{f}_{i}}}}},~{{(\alpha ,1)}^{T}}\Delta \overline{{{Z}_{{{f}_{j}}}}}),~\hat{C}={{({{{\hat{C}}}_{ij}})}_{i,j\le m}},$

其中${cov}_{sample}$是样本协方差.我们首先考察$ \| \hat{C} - C\| ,$其中$\| \cdot \| $ 表示矩阵的算子模,亦即$\|Q\|=\underset{z:\|z{{\|}_{2}}=1}{\mathop{\sup }}\,\|Qz{{\|}_{2}}.$我们所用到的基的大小,m,显然是可以随着样本量n的增加而增加的,有时记m为$m_n$来表示这一点.令

$L_{s}^{2}=\{h\in L:\exists z\in {{\mathbb{R}}^{m}},\|z{{\|}_{2}}=s,h=\sum\limits_{i\le m}{{{z}_{i}}}{{f}_{i}}\}.$

我们将证明

定理4.1 存在常数K0,K,使得对任意给定的一组基f1,$\cdots,f_m$,若

$(\forall h\in L_{1}^{2})E[{{({{(\alpha ,1)}^{T}}{{Z}_{h}})}^{2}}]\le M,$

$E[\underset{f\in L_{1}^{2}}{\mathop{\sup }}\,|(\alpha ,1)\Delta \overline{{{Z}_{f}}}{{|}^{2}}]\le {{K}_{0}}{{K}^{m}}\frac{M}{n}.$ (4.1)

证明和文献[5]第二章是相似的. 首先,我们固定任意一个常数$0<\delta<1$,并用$C_{m,\delta}$个半径为$\delta$的${\Bbb R}^m$中的小球$B_i,i\leq C_{m,\delta}$覆盖单位球$\{z\in {{\mathbb{R}}^{m}}:\|z{{\|}_{2}}\le 1\}$.显然对某个只跟$\delta$有关的常数$K_\delta,K_\delta'$,有$C_{m,\delta} = K_\delta' K_\delta ^m$.

设$z_i$是$B_i$的中心.设$h_i = \sum\limits_{j\leq m}z_{i}(j)f_j.$则

$\underset{f\in L_{1}^{2}}{\mathop{\sup }}\,|(\alpha ,1)\Delta \overline{{{Z}_{f}}}|\le \underset{i\le {{C}_{m,\delta }}}{\mathop{\max }}\,\{|(\alpha ,1)\Delta \overline{{{Z}_{{{h}_{i}}}}}+\underset{f\in {{B}_{i}}}{\mathop{\sup }}\,(\alpha ,1)\Delta \overline{{{Z}_{f-{{h}_{i}}}}}|\}.$ (4.2)

注意到,对任意$i\leq C_{m,\delta},$故

$\underset{f\in {{B}_{i}}}{\mathop{\sup }}\,|(\alpha ,1)\Delta \overline{{{Z}_{f-{{h}_{i}}}}}|\le \underset{f\in L_{\delta }^{2}}{\mathop{\sup }}\,|{{Z}_{f}}|=\delta \underset{f\in L_{1}^{2}}{\mathop{\sup }}\,|(\alpha ,1)\Delta \overline{{{Z}_{f}}}|.$ (4.3)

将(4.3)式带入式(4.2),我们有

$\begin{align} & \underset{f\in L_{1}^{2}}{\mathop{\sup }}\,|(\alpha ,1)\Delta \overline{{{Z}_{f}}}\le \underset{i\le {{C}_{m,\delta }}}{\mathop{\max }}\,\{|(\alpha ,1)\Delta \overline{{{Z}_{{{h}_{i}}}}}|\}+\delta \underset{f\in L_{1}^{2}}{\mathop{\sup }}\,|(\alpha ,1)\Delta \overline{{{Z}_{f}}}| \\ & \Rightarrow (1-\delta )\underset{f\in L_{1}^{2}}{\mathop{\sup }}\,|(\alpha ,1)\Delta \overline{{{Z}_{f}}}| \\ & \le \underset{i\le {{C}_{m,\delta }}}{\mathop{\max }}\,\{|(\alpha ,1)\Delta \overline{{{Z}_{{{h}_{i}}}}}|\}. \\ \end{align}$ (4.4)

利用文献[5],引理2.2.2 (令$\psi(x) = x^2$),并注意到条件$(\forall h\in L_{1}^{2})\ E[{{({{(\alpha ,1)}^{T}}{{Z}_{h}})}^{2}}]\le M$,故存在常数$\text{K}_{0}^{'}$,使得

$\begin{align} & E[\underset{i\le {{C}_{m,\delta }}}{\mathop{\max }}\,\{|(\alpha ,1)\Delta \overline{{{Z}_{{{h}_{i}}}}}{{|}^{2}}\}]\le \text{K}_{0}^{'}C_{m,\delta }^{\frac{1}{2}}\underset{i\le {{C}_{m,\delta }}}{\mathop{\max }}\,\{E[|(\alpha ,1)\Delta \overline{{{Z}_{{{h}_{i}}}}}{{|}^{2}}]\} \\ & \le \text{K}_{0}^{'}{{K}_{{{\delta }'}}}K_{\delta }^{\frac{m}{2}}\frac{M}{n}. \\ \end{align}$ (4.5)

从而,$K=K_{\delta }^{\frac{1}{2}},\text{K}_{0}^{'}=\frac{1}{1-\delta }\text{K}_{0}^{'}{{K}_{{{\delta }'}}}$使得式(4.1)成立.

显然利用上述证明可以不加修改地证明.

定理4.2 设X1,$\cdots,X_m\in {\Bbb R}^{k}$ 是m个随机变量. 若

$\underset{i\le m}{\mathop{\max }}\,E\|{{X}_{i}}\|_{2}^{2}\le M,$

$\underset{z\in {{\mathbb{R}}^{m}}:\|z{{\|}_{2}}=1}{\mathop{\sup }}\,E[\|\sum\limits_{j\le m}{z}(i){{X}_{i}}\|_{2}^{2}]\le {{K}_{0}}{{K}^{m}}\frac{M}{n}.$ (4.6)

定理4.3对给定的一组基f1,$\cdots,f_m,$若$(\forall h\in L_{1}^{2})E[{{({{(\alpha ,1)}^{T}}{{Z}_{h}})}^{4}}]\le M$,则

$E[\|\hat{C}-C\|]\le {{K}_{0}}{{K}^{m}}\frac{{{M}^{\frac{5}{4}}}}{{{n}^{\frac{1}{2}}}},$ (4.7)

其中K0,K是恒常数.

证明同定理4.1的证明是相似的.

注意到

$\|\hat{C}-C\|=\underset{{{z}_{1}},{{z}_{2}}\in {{\mathbb{R}}^{m}},\|{{z}_{1}}\|_{2}^{2}+\|{{z}_{1}}\|_{2}^{2}=1}{\mathop{\sup }}\,|{{({{z}_{1}},{{z}_{2}})}^{T}}(\hat{C}-C)({{z}_{1}},{{z}_{2}})|,$

根据$C,\hat{C}$的定义,显然,令$g = \sum\limits_{i\leq m}z_{1}(i)f_i,h = \sum\limits_{i\leq m}z_{2}(i)f_i.$

$\begin{align} & {{({{z}_{1}},{{z}_{2}})}^{T}}(\hat{C}-C)({{z}_{1}},{{z}_{2}}) \\ & =co{{v}_{sample}}({{(\alpha ,1)}^{T}}{{Z}_{g}},{{(\alpha ,1)}^{T}}{{Z}_{h}})-cov({{(\alpha ,1)}^{T}}{{Z}_{g}},{{(\alpha ,1)}^{T}}{{Z}_{h}}) \\ & =\overline{{{(\alpha ,1)}^{T}}{{Z}_{g}}\cdot {{(\alpha ,1)}^{T}}{{Z}_{h}}}-\overline{{{(\alpha ,1)}^{T}}{{Z}_{g}}}\cdot \overline{{{(\alpha ,1)}^{T}}{{Z}_{h}}} \\ & -E[{{(\alpha ,1)}^{T}}{{Z}_{g}}\cdot {{(\alpha ,1)}^{T}}{{Z}_{h}}]+E[{{(\alpha ,1)}^{T}}{{Z}_{g}}]\cdot E[{{(\alpha ,1)}^{T}}{{Z}_{h}}]. \\ \end{align}$ (4.8)

根据定理4.1,显然存在K0',K使得

$\begin{align} & {{V}_{k}}=\sum\limits_{i\le 2d}{\overline{{{({{(\alpha ,1)}^{T}}{{Z}_{g_{i}^{k}}})}^{2}}}}-(8\sqrt{2}d\sqrt{d}\text{K}_{0}^{'}{{{{K}'}}^{k}}){{M}_{{{k}''}}}\frac{M_{{{k}'}}^{\frac{1}{2}}}{{{n}^{\frac{1}{2}}}}-2d{{\text{K}}_{0}}{{K}^{k}}{{M}_{{{k}''}}}\frac{M_{{{k}'}}^{\frac{5}{4}}}{{{n}^{\frac{1}{2}}}}. \\ & E[|\overline{{{(\alpha ,1)}^{T}}{{Z}_{g}}}\cdot \overline{{{(\alpha ,1)}^{T}}{{Z}_{h}}}-E[{{(\alpha ,1)}^{T}}{{Z}_{g}}]\cdot E[{{(\alpha ,1)}^{T}}{{Z}_{h}}]|] \\ & \le 2\underset{h\in L_{1}^{2}}{\mathop{\sup }}\,|E[({{(\alpha ,1)}^{T}}{{Z}_{h}})]|{{(K_{0}^{'}{{K}^{m}}\frac{M}{n})}^{\frac{1}{2}}}. \\ \end{align}$ (4.9)

现在我们只需估计

$ \overline{ (\alpha,1)^T Z_{g}\cdot(\alpha,1)^T Z_h} -E[ (\alpha,1)^T Z_{g}\cdot(\alpha,1)^T Z_h],$

而这个估计和定理4.1中的证明过程是相同的.用$B_i,i\leq C_{2m,\delta}$覆盖 ${\Bbb R}^{2m}$上的单位球.注意到,根据条件$(\forall h\in L_{1}^{2})E[{{({{(\alpha ,1)}^{T}}{{Z}_{h}})}^{4}}]\le M$,有

$\begin{align} & E[|\overline{{{(\alpha ,1)}^{T}}{{Z}_{g}}\cdot {{(\alpha ,1)}^{T}}{{Z}_{h}}}-E[{{(\alpha ,1)}^{T}}{{Z}_{g}}\cdot {{(\alpha ,1)}^{T}}{{Z}_{h}}]{{|}^{2}}] \\ & \le Var(\overline{{{(\alpha ,1)}^{T}}{{Z}_{g}}\cdot {{(\alpha ,1)}^{T}}{{Z}_{h}}}) \\ & =\frac{1}{n}Var({{(\alpha ,1)}^{T}}{{Z}_{g}}\cdot {{(\alpha ,1)}^{T}}{{Z}_{h}}) \\ & \le \frac{1}{n}\sqrt{E[{{(\alpha ,1)}^{T}}Z_{g}^{4}]}\sqrt{E[{{(\alpha ,1)}^{T}}Z_{h}^{4}]} \\ & \le \frac{1}{n}\underset{h\in L_{1}^{2}}{\mathop{\sup }}\,E[{{({{(\alpha ,1)}^{T}}{{Z}_{h}})}^{4}}]\le \frac{M}{n}. \\ \end{align}$ (4.10)

设$z_i =(z_{1i},z_{2i})$是$B_i$的中心.设$h_i = \sum\limits_{j\leq m}z_{1i}(j)f_j,g_i = \sum\limits_{j\leq m}z_{2i}(j)f_j.$

我们有

$\begin{align} & \underset{h,g\in L_{1}^{2}}{\mathop{\sup }}\,\{|\overline{{{(\alpha ,1)}^{T}}{{Z}_{g}}\cdot {{(\alpha ,1)}^{T}}{{Z}_{h}}}-E[{{(\alpha ,1)}^{T}}{{Z}_{g}}\cdot {{(\alpha ,1)}^{T}}{{Z}_{h}}]|\} \\ & \le \underset{i\le {{C}_{2m,\delta }}}{\mathop{\max }}\,\{|\overline{{{(\alpha ,1)}^{T}}{{Z}_{{{g}_{i}}}}\cdot {{(\alpha ,1)}^{T}}{{Z}_{{{h}_{i}}}}}-E[{{(\alpha ,1)}^{T}}{{Z}_{{{g}_{i}}}}\cdot {{(\alpha ,1)}^{T}}{{Z}_{{{h}_{i}}}}]|\} \\ & +\underset{h\in L_{{{\delta }_{1}}}^{2},g\in L_{{{\delta }_{2}}}^{2},\delta _{1}^{2}+\delta _{2}^{2}={{\delta }^{2}}}{\mathop{\sup }}\,\{|\overline{{{(\alpha ,1)}^{T}}{{Z}_{g}}\cdot {{(\alpha ,1)}^{T}}{{Z}_{h}}}-E[{{(\alpha ,1)}^{T}}{{Z}_{g}}\cdot {{(\alpha ,1)}^{T}}{{Z}_{h}}]|\}. \\ \end{align}$ (4.11)

显然

$\begin{align} & \underset{h\in L_{{{\delta }_{1}}}^{2},g\in L_{{{\delta }_{2}}}^{2},\delta _{1}^{2}+\delta _{2}^{2}={{\delta }^{2}}}{\mathop{\sup }}\,\{|\overline{{{(\alpha ,1)}^{T}}{{Z}_{g}}\cdot {{(\alpha ,1)}^{T}}{{Z}_{h}}}-E[{{(\alpha ,1)}^{T}}{{Z}_{g}}\cdot {{(\alpha ,1)}^{T}}{{Z}_{h}}]|\} \\ & \le \underset{\delta _{1}^{2}+\delta _{2}^{2}={{\delta }^{2}}}{\mathop{\sup }}\,\delta _{1}^{2}\delta _{2}^{2}\underset{h\in L_{1}^{2},g\in L_{1}^{2}}{\mathop{\sup }}\,\{|\overline{{{(\alpha ,1)}^{T}}{{Z}_{g}}\cdot {{(\alpha ,1)}^{T}}{{Z}_{h}}}-E[{{(\alpha ,1)}^{T}}{{Z}_{g}}\cdot {{(\alpha ,1)}^{T}}{{Z}_{h}}]|\} \\ & \le \frac{{{\delta }^{2}}}{2}\underset{h\in L_{1}^{2},g\in L_{1}^{2}}{\mathop{\sup }}\,\{|\overline{{{(\alpha ,1)}^{T}}{{Z}_{g}}\cdot {{(\alpha ,1)}^{T}}{{Z}_{h}}}-E[{{(\alpha ,1)}^{T}}{{Z}_{g}}\cdot {{(\alpha ,1)}^{T}}{{Z}_{h}}]|\}. \\ \end{align}$ (4.12)

从而

$\begin{align} & (1-\frac{{{\delta }^{2}}}{2})\underset{h,g\in L_{1}^{2}}{\mathop{\sup }}\,\{|\overline{{{(\alpha ,1)}^{T}}{{Z}_{g}}\cdot {{(\alpha ,1)}^{T}}{{Z}_{h}}}-E[{{(\alpha ,1)}^{T}}{{Z}_{g}}\cdot {{(\alpha ,1)}^{T}}{{Z}_{h}}]|\} \\ & \le \underset{i\le {{C}_{2m,\delta }}}{\mathop{\max }}\,\{|\overline{{{(\alpha ,1)}^{T}}{{Z}_{{{g}_{i}}}}\cdot {{(\alpha ,1)}^{T}}{{Z}_{{{h}_{i}}}}}-E[{{(\alpha ,1)}^{T}}{{Z}_{{{g}_{i}}}}\cdot {{(\alpha ,1)}^{T}}{{Z}_{{{h}_{i}}}}]|\}. \\ \end{align}$ (4.13)

于是,利用文献[5,引理2.2.2],存在$\text{K}_{0}^{'},{{K}_{{{\delta }'}}},{{K}_{\delta }}$使得

$\begin{align} & E[\underset{h,g\in L_{1}^{2}}{\mathop{\sup }}\,\{|\overline{{{(\alpha ,1)}^{T}}{{Z}_{g}}\cdot {{(\alpha ,1)}^{T}}{{Z}_{h}}}-E[{{(\alpha ,1)}^{T}}{{Z}_{g}}\cdot {{(\alpha ,1)}^{T}}{{Z}_{h}}]{{|}^{2}}\}] \\ & \le \frac{1}{1-\frac{{{\delta }^{2}}}{2}}K_{0}^{''}{{K}_{{{\delta }'}}}K_{\delta }^{2m} \\ & \Rightarrow E[\underset{h,g\in L_{1}^{2}}{\mathop{\sup }}\,\{|\overline{{{(\alpha ,1)}^{T}}{{Z}_{g}}\cdot {{(\alpha ,1)}^{T}}{{Z}_{h}}}-E[{{(\alpha ,1)}^{T}}{{Z}_{g}}\cdot {{(\alpha ,1)}^{T}}{{Z}_{h}}]|\}] \\ & \le {{(\frac{1}{1-\frac{{{\delta }^{2}}}{2}}K_{0}^{''}{{K}_{{{\delta }'}}}K_{\delta }^{2m}\frac{M}{n})}^{\frac{1}{2}}}. \\ \end{align}$ (4.14)

将(4.9),(4.14)带入到(4.8)式,我们有

$\begin{align} & E[\underset{\|{{z}_{1}}\|_{2}^{2}+{{z}_{2}}\|_{2}^{2}=1}{\mathop{\sup }}\,|{{({{z}_{1}},{{z}_{2}})}^{T}}(\hat{C}-C)({{z}_{1}},{{z}_{2}})|] \\ & \le 2\underset{h\in L_{1}^{2}}{\mathop{\sup }}\,|E[({{(\alpha ,1)}^{T}}{{Z}_{h}})]|{{(\text{K}_{0}^{'}{{K}^{m}}\frac{M}{n})}^{\frac{1}{2}}}+{{(\frac{1}{1-\frac{{{\delta }^{2}}}{2}}\text{K}_{0}^{''}{{K}_{{{\delta }'}}}K_{\delta }^{2m}\frac{M}{n})}^{\frac{1}{2}}} \\ & \le {{K}_{0}}{{K}^{m}}{{M}^{\frac{5}{4}}}{{n}^{-\frac{1}{2}}}. \\ \end{align}$ (4.15)

证毕.

现在,通过解二次规划问题(3.11),我们对给定的一组${\Bbb R}^{2d}$上的基$e_i,i\leq 2d ''$计算" (估计)了

$X_{L}^{-1}({{e}_{i}})={{g}_{i}}=\sum\limits_{j\le m}{x_{j}^{i}}{{h}_{j}},$

其中$h_j,j\leq m$是L的一组基.我们用来估计$\alpha$的函数为$g_i,i\leq 2d$ (也就是在(3.2)式中令 f = (g1,$\cdots,g_{2d}),C = I.$参考引理3.2). 令

${{c}_{ij}}=n\cdot cov({{(\alpha ,1)}^{T}}\Delta \overline{{{Z}_{{{g}_{i}}}}},{{(\alpha ,1)}^{T}}\Delta \overline{{{Z}_{{{g}_{j}}}}}).$

我们现在要估计$\alpha$的估计量$\hat{\alpha}_{f,C}$的最小均方误差 (之前已经提到,我们令$C = I).$根据(3.5)式以及f = (g1,$\cdots,g_{2d}),C = I,$ 引理3.2,最小均方误差近似的是

$\frac{1}{n}\sum\limits_{i,j\leq 2d} c_{ij} E[X_{g_i}]^T \bigg(\sum\limits_{k\leq 2d} E[X_{g_k}] E[X_{g_k}]^T\bigg)^{-2} E[X_{g_j}].$ (4.16)

根据二次规划问题(3.11)的定义,$\overline{X_{g_i}} = e_i.\hat{c} = (\hat{c}_{ij})_{i,j\leq 2d}$是对角矩阵.令

$\begin{align} & {{x}^{i}}=(x_{1}^{i},\cdots ,x_{m}^{i}),~~M=\underset{i\le m}{\mathop{\max }}\,\{E[{{({{(\alpha ,1)}^{T}}{{Z}_{{{h}_{i}}}})}^{4}}],E[{{({{(\alpha ,1)}^{T}}{{Z}_{{{h}_{i}}}})}^{2}}]\},\\ & {M}'=\underset{i\le 2d}{\mathop{\max }}\,\{\|{{x}^{i}}{{\|}_{2}}\}. \\ \end{align}$

我们将利用定理4.1,4.3,4.2来估计

$-\sum\limits_{i,j\le 2d}{{{c}_{ij}}}E{{[{{X}_{{{g}_{i}}}}]}^{T}}{{(\sum\limits_{k\le 2d}{E}[{{X}_{{{g}_{k}}}}]E{{[{{X}_{{{g}_{k}}}}]}^{T}})}^{-2}}E[{{X}_{{{g}_{j}}}}]+\sum\limits_{i,j\le 2d}{{{{\hat{c}}}_{ij}}}{{\overline{{{X}_{{{g}_{i}}}}}}^{T}}{{(\sum\limits_{k\le 2d}{\overline{{{X}_{{{g}_{k}}}}}}{{\overline{{{X}_{{{g}_{k}}}}}}^{T}})}^{-2}}\overline{{{X}_{{{g}_{j}}}}}$ (4.17)

的下界,从而得到

$\sum\limits_{i,j\le 2d}{{{c}_{ij}}}E{{[{{X}_{{{g}_{i}}}}]}^{T}}{{(\sum\limits_{k\le 2d}{E}[{{X}_{{{g}_{k}}}}]E{{[{{X}_{{{g}_{k}}}}]}^{T}})}^{-2}}E[{{X}_{{{g}_{j}}}}]$

的上界.设$c_{ij} = \hat{c}_{ij}+\Delta c_{ij},E[X_{g_i}]=\overline{X_{g_i}}+\Delta X_{g_i} $ ,有

$\begin{align} & \sum\limits_{i,j\le 2d}{{{c}_{ij}}}E{{[{{X}_{{{g}_{i}}}}]}^{T}}{{(\sum\limits_{k\le 2d}{E}[{{X}_{{{g}_{k}}}}]E{{[{{X}_{{{g}_{k}}}}]}^{T}})}^{-2}}E[{{X}_{{{g}_{j}}}}] \\ & =\sum\limits_{i,j\le 2d}{({{{\hat{c}}}_{ij}}+\Delta {{c}_{ij}}){{(\overline{{{X}_{{{g}_{i}}}}}+\Delta {{X}_{{{g}_{i}}}})}^{T}}}{{(\sum\limits_{k\le 2d}{(\overline{{{X}_{{{g}_{i}}}}}+\Delta {{X}_{{{g}_{i}}}}){{(\overline{{{X}_{{{g}_{i}}}}}+\Delta {{X}_{{{g}_{i}}}})}^{T}}})}^{-2}}(\overline{{{X}_{{{g}_{i}}}}}+\Delta {{X}_{{{g}_{i}}}}). \\ \end{align}$ (4.18)

假设$\Delta c_{ij},\Delta X_{g_i}$都非常小,从而我们只关心(4.18)式右边关于$\Delta c_{ij},\Delta X_{g_i}$的展开式的一阶无穷小量,并将其作为(4.17)式的下界的估计.根据定义,

$ \sum\limits_{k\leq 2d} (\overline{X_{g_i}} \overline{X_{g_i}}^T)^{-2}=I. $

从而,只要$\Delta X_{g_i} X_{g_i}^T$充分小(关于范数$\| \cdot \| )$,则有

$\sum\limits_{k\le 2d}{(\overline{{{X}_{{{g}_{i}}}}}+\Delta {{X}_{{{g}_{i}}}}){{(\overline{{{X}_{{{g}_{i}}}}}+\Delta {{X}_{{{g}_{i}}}})}^{T}}}{{)}^{-2}}\approx I-\sum\limits_{i\le 2d}{\Delta }{{X}_{{{g}_{i}}}}X_{{{g}_{i}}}^{T}-\sum\limits_{i\le 2d}{{{X}_{{{g}_{i}}}}}\Delta X_{{{g}_{i}}}^{T}.$ (4.19)

显然,(4.18)式关于$\Delta c_{ij},\Delta X_{g_i}$的泰勒展开的一阶项为

$\begin{align} & -\sum\limits_{i,j\le 2d}{{{c}_{ij}}}E{{[{{X}_{{{g}_{i}}}}]}^{T}}{{(\sum\limits_{k\le 2d}{E}[{{X}_{{{g}_{k}}}}]E{{[{{X}_{{{g}_{k}}}}]}^{T}})}^{-2}}E[{{X}_{{{g}_{j}}}}] \\ & +\sum\limits_{i,j\le 2d}{{{{\hat{c}}}_{ij}}}{{\overline{{{X}_{{{g}_{i}}}}}}^{T}}{{(\sum\limits_{k\le 2d}{\overline{{{X}_{{{g}_{k}}}}}}{{\overline{{{X}_{{{g}_{k}}}}}}^{T}})}^{-2}}\overline{{{X}_{{{g}_{j}}}}} \\ & \approx -\sum\limits_{i,j\le 2d}{\Delta }{{c}_{ij}}{{\overline{{{X}_{{{g}_{i}}}}}}^{T}}{{(\sum\limits_{k\le 2d}{\overline{{{X}_{{{g}_{k}}}}}}{{\overline{{{X}_{{{g}_{k}}}}}}^{T}})}^{-2}}\overline{{{X}_{{{g}_{j}}}}}-2\sum\limits_{i,j\le 2d}{{{c}_{ij}}}\Delta X_{{{g}_{i}}}^{T}\overline{{{X}_{{{g}_{j}}}}} \\ & -\sum\limits_{i,j\le 2d}{{{c}_{ij}}}\overline{{{X}_{{{g}_{i}}}}}(\sum\limits_{k\le 2d}{\Delta }{{X}_{{{g}_{k}}}}X_{{{g}_{k}}}^{T}+\sum\limits_{k\le 2d}{{{X}_{{{g}_{k}}}}}\Delta X_{{{g}_{k}}}^{T})\overline{{{X}_{{{g}_{j}}}}}. \\ \end{align}$ (4.20)

由于$\overline{X_{g_i}}=e_i$,从而

$\sum\limits_{i,j}\Delta c_{ij} \overline{X_{g_i}}^T \bigg(\sum\limits_{k\leq 2d} \overline{X_{g_k}} \overline{X_{g_k}}^T\bigg)^{-2} \overline{X_{g_j}} = \sum\limits_{i\leq 2d} \Delta c_{ii}.$ (4.21)

利用定理4.3,显然有,存在常数K0,K,使得

$E[\|c-\hat{c}\|]\le {{K}_{0}}{{K}^{m}}{M}'\frac{{{M}^{\frac{5}{4}}}}{{{n}^{\frac{1}{2}}}}.$

因此

$E[|\sum\limits_{i\le 2d}{\Delta }{{c}_{ii}}|]\le 2d{{K}_{0}}{{K}^{m}}{M}'\frac{{{M}^{\frac{5}{4}}}}{{{n}^{\frac{1}{2}}}}.$ (4.22)

利用定理4.2,对 $\forall i\leq 2d$显然有

$E[\|\Delta {{X}_{{{g}_{i}}}}{{\|}_{2}}]\le K_{0}^{'}{{{{K}'}}^{m}}{M}'\frac{{{M}^{\frac{1}{2}}}}{{{n}^{\frac{1}{2}}}}.$

于是

$E[|2\sum\limits_{i,j\le 2d}{{{c}_{ij}}}\Delta X_{{{g}_{i}}}^{T}\overline{{{X}_{{{g}_{j}}}}}|]\le 2\cdot 2d\cdot \sqrt{2d}M\text{K}_{0}^{'}{{{{K}'}}^{m}}{M}'\frac{{{M}^{\frac{1}{2}}}}{{{n}^{\frac{1}{2}}}}.$ (4.23)
$\begin{align} & \sum\limits_{i,j\le 2d}{{{c}_{ij}}}\overline{{{X}_{{{g}_{i}}}}}(\sum\limits_{k\le 2d}{\Delta }{{X}_{{{g}_{k}}}}X_{{{g}_{k}}}^{T}+\sum\limits_{k\le 2d}{{{X}_{{{g}_{k}}}}}\Delta X_{{{g}_{k}}}^{T})\overline{{{X}_{{{g}_{j}}}}} \\ & =2\sum\limits_{i,j,k\le 2d}{{{c}_{ij}}}\overline{{{X}_{{{g}_{i}}}}}(\Delta {{X}_{{{g}_{k}}}}X_{{{g}_{k}}}^{T})\overline{{{X}_{{{g}_{j}}}}}=2\sum\limits_{i,j\le 2d}{{{c}_{ij}}}\Delta X_{{{g}_{i}}}^{T}\overline{{{X}_{{{g}_{j}}}}}. \\ \end{align}$ (4.24)

根据(4.23)式,有

$\begin{align} & E[|\sum\limits_{i,j\le 2d}{{{c}_{ij}}}\overline{{{X}_{{{g}_{i}}}}}(\sum\limits_{k\le 2d}{\Delta }{{X}_{{{g}_{k}}}}X_{{{g}_{k}}}^{T}+\sum\limits_{k\le 2d}{{{X}_{{{g}_{k}}}}}\Delta X_{{{g}_{k}}}^{T})\overline{{{X}_{{{g}_{j}}}}}|] \\ & \le 2\cdot 2d\cdot \sqrt{2d}M\text{K}_{0}^{'}{{{{K}'}}^{m}}{M}'\frac{{{M}^{\frac{1}{2}}}}{{{n}^{\frac{1}{2}}}}. \\ \end{align}$ (4.25)

利用关系(4.20)式以及估计(4.23),(4.25),(4.22)式有

$\begin{align} & E[|-\sum\limits_{i,j\le 2d}{{{c}_{ij}}}E{{[{{X}_{{{g}_{i}}}}]}^{T}}{{(\sum\limits_{k\le 2d}{E}[{{X}_{{{g}_{k}}}}]E{{[{{X}_{{{g}_{k}}}}]}^{T}})}^{-2}}E[{{X}_{{{g}_{j}}}}] \\ & +\sum\limits_{i,j\le 2d}{{{{\hat{c}}}_{ij}}}{{\overline{{{X}_{{{g}_{i}}}}}}^{T}}{{(\sum\limits_{k\le 2d}{\overline{{{X}_{{{g}_{k}}}}}}{{\overline{{{X}_{{{g}_{k}}}}}}^{T}})}^{-2}}\overline{{{X}_{{{g}_{j}}}}}|] \\ & \lesssim E[|\sum\limits_{i,j\le 2d}{\Delta }{{c}_{ij}}{{\overline{{{X}_{{{g}_{i}}}}}}^{T}}{{(\sum\limits_{k\le 2d}{\overline{{{X}_{{{g}_{k}}}}}}{{\overline{{{X}_{{{g}_{k}}}}}}^{T}})}^{-2}}\overline{{{X}_{{{g}_{j}}}}}|]+ \\ & E[|2\sum\limits_{i,j\le 2d}{{{c}_{ij}}}\Delta X_{{{g}_{i}}}^{T}\overline{{{X}_{{{g}_{j}}}}}|]+E[|\sum\limits_{i,j\le 2d}{{{c}_{ij}}}\overline{{{X}_{{{g}_{i}}}}}(\sum\limits_{k\le 2d}{\Delta }{{X}_{{{g}_{k}}}}X_{{{g}_{k}}}^{T}+\sum\limits_{k\le 2d}{{{X}_{{{g}_{k}}}}}\Delta X_{{{g}_{k}}}^{T})\overline{{{X}_{{{g}_{j}}}}}|] \\ & \le 4\cdot 2d\cdot \sqrt{2d}M\text{K}_{0}^{'}{{{{K}'}}^{m}}{M}'\frac{{{M}^{\frac{1}{2}}}}{{{n}^{\frac{1}{2}}}}+2d{{\text{K}}_{0}}{{K}^{m}}{M}'\frac{{{M}^{\frac{5}{4}}}}{{{n}^{\frac{1}{2}}}}. \\ \end{align}$ (4.26)
5 总结

我们最终的估计如下:固定一列函数h1,h2,$\cdots$.设对任意i,有

$E[\|{{Z}_{{{h}_{i}}}}\|_{2}^{4}]<\infty .$

1. 利用一组固定的函数f1,$\cdots,f_k,$以及C = I 来估计$\alpha $= (a,c),亦即$\hat{\alpha}_{f,C}$.

2.寻找适当的$m_n$,其中n是样本量,使得K0 $K^m \frac{M_n}{n^{\frac{1}{2}}}<\eta,\eta$是充分小的常数.$ M_n$为

$\|{{{\hat{\alpha }}}_{f,C}}{{\|}_{2}}\cdot \underset{i\le {{m}_{n}}}{\mathop{\max }}\,\{E[\|{{Z}_{{{h}_{i}}}}\|_{2}^{4}],E[\|{{Z}_{{{h}_{i}}}}\|_{2}^{2}]\}\le {{M}_{n}}.$

3.令$M_i' = \max\limits_{j\leq i}\{E[((\hat{\alpha}_{f,C},1)^T Z_{h_j})^4],E[((\alpha_{f,C},1)^T Z_{h_j})^2]\}$,固定${\Bbb R}^{2d}$上的一组基$e_j,j\leq 2d$.

对每个$k\leq m_n$分别求解二次规划问题(3.12).亦即,${{L}_{k}}=span\{{{h}_{1}},\cdots ,{{h}_{i}}\}$,估计$X_{L_k}^{-1}(e_j).$ 亦即对$j\leq 2d,e=e_j$,

${{{\hat{C}}}_{ij}}\overset{def}{\mathop{=}}\,co{{v}_{sample}}({{(\alpha ,1)}^{T}}\Delta \overline{{{Z}_{{{h}_{i}}}}},{{(\alpha ,1)}^{T}}\Delta \overline{{{Z}_{{{h}_{j}}}}}),$

$\hat{C}_k = (\hat{C}_{ij})_{i,j\leq k}.\hat{a}_{i} = \overline{X_{h_i}},$求解二次规划问题(3.12).设所得到的解为$x^{k,i},k\leq m_n,i\leq 2d.$令$g_{i}^{m}=\sum\limits_{j\le \text{m}}{{{x}^{m,i}}}(j){{h}_{j}}.$令${{M}_{{{k}''}}}=\underset{i\le 2d}{\mathop{\max }}\,\{\|{{x}^{k,i}}{{\|}_{2}}\}$.

${{V}_{k}}=\sum\limits_{i\le 2d}{\overline{{{({{(\alpha ,1)}^{T}}{{Z}_{g_{i}^{k}}})}^{2}}}}-(8\sqrt{2}d\sqrt{d}\text{K}_{0}^{'}{{{{K}'}}^{k}}){{M}_{{{k}''}}}\frac{M_{{{k}'}}^{\frac{1}{2}}}{{{n}^{\frac{1}{2}}}}-2d{{\text{K}}_{0}}{{K}^{k}}{{M}_{{{k}''}}}\frac{M_{{{k}'}}^{\frac{5}{4}}}{{{n}^{\frac{1}{2}}}}.$

Vk表示对利用$g_{1}^{k},\cdots ,g_{2d}^{k}$来估计$\alpha$的有效性的下界的估计.令

${{m}_{{{n}'}}}=\underset{k\le {{m}_{n}}}{\mathop{\arg \min }}\,{{V}_{k}}.$

4.对$\alpha$的最终估计为$(\hat{a},\hat{c}) =\hat{\alpha}_{g^{m_n'},C}.$

5.为了估计b,令${{{\hat{\mu }}}_{0}}=\bar{F}.\hat{b}=\hat{c}/{{{\hat{\mu }}}_{0}}$.

参考文献
[1] Baccelli F, Karpelevich F I, Kelbert M Y, et al. A mean-field limit for a class of queueing networks. Journal of Statistical Physics , 1992, 66(3/4) : 803–825.
[2] Cohen J E. Markov population processes as models of primate social and population dynamics. Theoretical Population Biology , 1972, 3(2) : 119–134. DOI:10.1016/0040-5809(72)90022-6
[3] Kingman J F C. Markov population processes. Journal of Applied Probability , 1969, 6(1) : 1–18. DOI:10.1017/S0021900200032502
[4] Moran P A P. Random processes in genetics. Mathematical Proceedings of the Cambridge Philosophical Society , 1958, 54(1) : 60–71. DOI:10.1017/S0305004100033193
[5] Van Der Vaart A W, Wellner J A. Weak Convergence. New York: Springer , 1996 .
[6] Zhao S J. Hypothesis testing for fractional Ornstein-Uhleneck model. Acta Mathematica Scientia , 2011, 31(5) : 1393–1402.