数学物理学报, 2020, 40(3): 811-823 doi:

论文

信噪比在AR模型定阶方法选择中的研究

王志刚, 丁义明,

Research on Signal-to-Noise Ratio in Order Selection of AR Model

Wang Zhigang, Ding Yiming,

通讯作者: 丁义明, E-mail: dingym@whut.edu.cn

收稿日期: 2019-06-20  

基金资助: 中央高校基本科研业务费专项资金.  2017IVA073

Received: 2019-06-20  

Fund supported: the Fundamental Research Funds for the Central Universities.  2017IVA073

摘要

AR模型有多种定阶方法,针对特定的时间序列,不同方法得到的结果会有差异,如何适应性地选择合适的定阶方法是一个重要的问题。该文针对低阶自回归模型,在考虑噪声标准差、序列长度和特征根的影响下,引入一种估计模型信噪比的方法,并将其作为评价AIC、BIC和FPE准则定阶准确度的标准.实验表明:当模型的特征根满足|λ1|=|λ2|=…=|λp|=|λmax|时,准确率达到该最大特征根条件下的最大值;定阶准确率与序列长度、特征根相对于单位圆心的距离呈正相关,与噪声标准差无关.在此基础上,提出一种利用参考模型信噪比选择定阶方法的方案,为不同定阶方法优劣的比较提供了新的视角.

关键词: 自回归模型 ; 信噪比 ; 噪声标准差 ; 序列长度 ; 特征根 ; 参考模型

Abstract

There are many methods can be used to determine the order of AR models. For specific time series, different method may provide different results. How to select method adaptively for particular series is an important problem, especially in big data era. In this paper, we introduce a method to estimate the signal-to-noise ratio (SNR) of the AR model in low-order noisy environments. It takes the influence of noise standard deviation, series length and eigenvalue of the model into consideration, which can be used as a criterion to evaluate the accuracy of AIC, BIC and FPE. The experimental results show that when the eigenvalue satisfies|λ1|=|λ2|=…=|λp|=|λmax|, the order determination accuracy reaches the maximum under the condition of maximum eigenvalue. The accuracy is positively correlated with the series length and the distance of eigenvalue from origin, independent of noise standard deviation. Finally, based on the experimental results, we can select the order determination method of AR model according to the SNR of converted reference model, which provides a new perspective on the comparison of the advantages and disadvantages in different order determination methods.

Keywords: Autoregressive model ; Signal-to-noise ratio ; Noise standard deviation ; Series length ; Eigenvalue ; Reference model

PDF (720KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

王志刚, 丁义明. 信噪比在AR模型定阶方法选择中的研究. 数学物理学报[J], 2020, 40(3): 811-823 doi:

Wang Zhigang, Ding Yiming. Research on Signal-to-Noise Ratio in Order Selection of AR Model. Acta Mathematica Scientia[J], 2020, 40(3): 811-823 doi:

1 引言

时间序列分析作为数理统计的分支,具有独特的数据分析和处理方法.自回归(Autoregressive, AR)模型是线性时序分析中最简单的模型,已广泛应用在许多科学和工程领域[1-2].在实际应用中,首先需要确定描述模型行为的必要参数的数量,因为这直接关系到模型的可用性以及使用精度,阶数不同,建立的AR模型的参数和它们拟合的残差也不同.格兰杰因果(Granger Causality)用于分析经济变量之间的关系,在平稳时间序列的格兰杰因果关系检验中,阶数的选择非常敏感,不同的阶数可能得到完全不同的检验结果.因此,模型的定阶是模型构建的一个重要问题.

众多学者对有噪声和无噪声AR模型均进行了深入的研究并提出了许多定阶方法[3-4]. Box和Jenkins首先利用序列的自相关函数和偏相关函数来定阶[5],该方法是时序分析建模的启发式方法.另一种方法是给出定阶准则,基于准则的最优来确定模型的阶数[6],较为常用的方法包括赤池信息准则(Akaike Information Criterion, AIC)、贝叶斯信息准则(Bayesian Information Criterion, BIC)和最小预测误差准则(Final Prediction Error Criterion, FPE).

FPE准则直接源于模型的实际应用,为选择AR模型的阶数奠定了理论基础,也是产生AIC准则的基础. AIC准则是计量经济学中重要的信息判断准则,同时在其它领域中也有广泛应用.在AIC准则出现之前,模型选择通过似然函数最大判断模型最优,但是似然函数越大代表参数个数越多, AIC准则结合熵原理和K-L距离解决了这个问题,达到了模型拟合精度和参数个数的平衡.许多学者在后续研究中发现AIC准则在大样本下效果不佳,又引入BIC准则.

目前,对AR模型定阶方法的研究较多,但这些方法各有优劣,并且定阶问题没有"通用公式",对于众多方法,研究更多的是给出定性的分类比较. Gooijer在1985年发表综述文章[7],详细介绍了13种定阶方法,并根据建模过程是否加入人为因素把这些方法分为主观方法和客观方法; Koehler通过拟合预测模型把AIC与BIC进行了比较[8],结果表明BIC准则可以得到较低阶的预测模型.如果能够为定阶方法的选择提供合适的标准,则可以对其准确度给出评价,由于噪声标准差、模型的序列长度和特征根对定阶准确度可能会产生影响,因此衡量定阶方法准确度的标准需要综合考虑这些因素,而信噪比为解决该问题提供了一种途径.

本文针对低阶AR模型,引入一种估计模型信噪比的方法,并以该信噪比作为评价AIC、BIC和FPE三种定阶准则准确度的标准,最后提出了一种基于模型信噪比选择定阶方法的方案.实验采用高斯白噪声作为平稳AR模型的输入噪声,研究了在不同的噪声标准差,模型序列长度和特征根等因素影响下,利用AIC、BIC和FPE准则定阶,其准确率与模型信噪比的变化趋势.经过实验得出的结论为:当模型的$p$个特征根满足$|\lambda_1|=|\lambda_2|=\cdots=|\lambda_p|=|\lambda_{\max}|$时,定阶准确率达到该最大特征根条件下的最大值;定阶准确率与序列长度、特征根相对于单位圆心的距离呈正相关,与噪声标准差无关;信噪比随最大特征根和序列长度的增大而增大并最终趋于平稳.基于这些实验现象,通过特征根取$p$重实根的转换,可以针对已知的AR模型序列,根据其转换后的参考模型信噪比来选择其定阶方法.本文将信噪比引入平稳AR模型,初步建立了模型信噪比与定阶准确率的关系,为不同定阶方法优劣的定量比较提供了新的视角.

2 AR模型与定阶方法简介

2.1 AR模型简介

$x_{1}, x_{2}, \cdots, x_{T}$为一个随机AR(p)过程的观测序列, $T$为序列长度, $p$为模型的真实阶数$(p<T)$.如果信号$x_t$被噪声过程$v_t$影响,其中$v_{t} \sim N\left(0, \sigma_{v}^{2}\right)$,则观测到的信号$y_t$

$ \begin{equation} \label{eq:a1} y_t=x_t+v_t. \end{equation}$

假设$x_t$是由分布为$N\left(0, \sigma_{\varepsilon}^{2}\right)$的噪声序列$\varepsilon_t$ (随机干扰误差项)激发的输出信号,一般形式为

$ \begin{equation} \label{eq:a2} x_t=-\sum\limits_{i=1}^{p} \phi_{i} x_{t-i}+\varepsilon_t, \end{equation}$

其中$\phi_{i}(i=1, 2, \cdots, p)$表示自回归系数,表明序列中$x_{t}$是前$p$个序列的线性组合及误差项的函数.对于任意$t$,满足假设条件$E\left(\varepsilon_{t}\right)=0$, ${\rm Var}\left(\varepsilon_{t}\right)=\sigma_{\varepsilon}^{2}>0$, ${\rm Cov}\left(\varepsilon_{i}\varepsilon_{j}\right)=0$, $i\neq j$,且观测噪声$\varepsilon_t$与输入噪声$v_t$无关.

对于一个AR(p)模型: $x_{t}=\phi_{1} x_{t-1}+\phi_{2} x_{t-2}+\cdots+\phi_{p} x_{t-p}+\varepsilon_{t}$,其特征方程为

$\begin{equation}\label{eq:a3}\lambda^{p}-\phi_{1}\lambda^{p-1}-\phi_{2}\lambda^{p-2}-\cdots-\phi_{p}=0.\end{equation}$

$\lambda_{1}, \lambda_{2}, \cdots, \lambda_{p}$为该齐次线性差分方程的$p$个特征根,则模型平稳的充要条件是$p$个特征根均在单位圆内,即$\left|\lambda_{i}\right|<1, i=1, 2, \cdots, p$,本文把低阶AR(p)模型$p$=2, 3, 4, 5作为研究对象.

2.2 定阶方法

AIC准则是基于对数似然函数的一种方法,它是拟合精度和参数个数的加权函数,从本质上也反映了真实模型拟合的准确性与实际处理量之间的综合考虑.

$\begin{equation} \label{eq:a4} AIC(m)=T \log \left(\hat{\sigma}_{m}^{2}\right)+2(m+1), \end{equation}$

其中, $m$是阶数$p$的估计, $\log \left(\hat{\sigma}_{m}^{2}\right)$为极大对数似然函数.该准则是基于信息论提出的一种完全客观的定阶准则,避免了一些主观因素的影响.

BIC准则弥补了当样本量趋于无穷大时, AIC准则所选模型不收敛于真实模型的不足.模型的BIC函数为

$\begin{equation}\label{eq:a5}BIC(m)=T \log \left(\hat{\sigma}_{m}^{2}\right)+(m+1) \log T.\end{equation}$

与AIC函数相比,上述公式右边的第二项用$\log T$取代了系数2,因此当拟合相同的数据序列时, AIC准则通常高于BIC准则确定的阶数.

FPE准则的基本思路是根据模型的预报误差来判断自回归模型的阶数是否合适.如果某个适用的自回归模型是由某一序列拟合得来,则利用该模型对该序列进行一步预测,所得的预测误差必定是最小的,因此,预测效果的好坏,反过来也可作为模型拟合优劣的检验准则. FPE准则定义为

$ \begin{equation} \label{eq:a6} {\rm FPE}(m)=\hat{\sigma}_{m}^{2} \frac{T+m}{T-m}. \end{equation}$

在所有通过检验的模型中使AIC、BIC或FPE函数达到最小的模型为相对最优模型.由于无法比较所有模型的函数值,只能在尽量全面的范围内检查有限数量模型的函数值,并需要预先指定阶数的最大范围,因此本文取$m_{\max }=10$.

3 信噪比的选择

比较定阶方法的优劣可以从四个方面考虑:准确度、稳健性、计算速度和简单性,其首要指标就是准确度,而衡量“准”的标准至关重要.对于同一组数据,使用不同定阶准则得到的阶数可能不一致,而评估不同定阶方法准确度的标准,需要综合考虑噪声标准差、模型序列长度和特征根等因素的影响.在有噪声的时序分析中,我们关心的一个重要参数是信噪比,它是模型选择的有效指标,引入信噪比评价各种定阶准则的准确度,可以自适应的采用更有效的方法来定阶.

在通信系统中常采用信噪比作为度量信道质量的参量,它是通信系统中的一个重要指标,保持一个合理的信噪比非常重要.信噪比定义为信号功率与噪声功率的比率,一般以分贝$(dB)$为单位表示,其值为十倍对数信号与噪声功率之比:

$%\begin{equation} \label{eq:a7} %SNR=\frac{P_{ {\rm signal}}}{P_{{\rm noise}}}, % \end{equation}\begin{equation}\label{eq:a8}S N R(d B)=10 \log _{10}\frac{P_{{\rm signal }}}{P_{{\rm noise}}}, \end{equation}$

其中, $P_{{\rm signal }}$为信号功率, $P_{{\rm noise}}$为噪声功率.

大部分情况下,噪声都是加性,而加性噪声中最常见的是高斯白噪声,该噪声信号为一种便于分析的理想噪声信号,因此一般假设系统所产生的噪声或受到的噪声信号干扰是高斯白噪声,也将其作为本文研究的噪声信号.如果信噪比不是恒定的,各种定阶方法都需要信噪比的先验知识才能获得最佳性能,选择一种精度高、分辨能力好、计算简单的信噪比估计方法尤为重要.

信噪比估计的研究较多,其性能优劣,不可一概而论,大致可以分为时域方法和频域方法.大部分时域方法适用于具有一定包络线的输入信号,而AR模型没有确定的包络,所以一些经典的信噪比估计方法不适用于这里的输入信号.本文利用白丹萍在万群指导下提出的方法估计AR模型信噪比[9],该方法充分利用了AR模型的信息,能很好地反映模型的信噪比随噪声标准差、特征值和序列长度变化的趋势,并且克服了经典频域方法会过低估计SNR值的缺点,其估计SNR的公式为

$\begin{equation} \label{eq:a9} S N R=10 \log _{10} \frac{P_{x}-\sigma_{v}^{2}}{\sigma_{v}^{2}}, \end{equation}$

其中$P_{x}=\left(\sum_{t} x^{2}(t)\right) / T$, $\sigma_{v}^{2}$为噪声的方差, $\sigma_{v}^{2}$的估计如下[9].

对于一个$p$阶AR过程,计算序列的自相关函数$r_{x}(k)$, $k$$\{0, 1, \cdots, 2 \mathrm{p}\}$,构造矩阵

$\begin{equation} \label{eq:a10} \left( \begin{array}{cccc}{r_{x}(p+1)} & {r_{x}(p)} & {\cdots} & {r_{x}(1)} \\ {r_{x}(p+2)} & {r_{x}(p+1)} & {\dots} & {r_{x}(2)} \\ {\vdots} & {\vdots} & {\ddots} & {\vdots} \\ {r_{x}(2 p)} & {r_{x}(2 p-1)} & {\cdots} & {r_{x}(p)}\end{array}\right) \left( \begin{array}{c}{1} \\ {\phi_{1}} \\ {\vdots} \\ {\phi_{p}}\end{array}\right)=\left( \begin{array}{c}{0} \\ {0} \\ {\vdots} \\ {0}\end{array}\right), \end{equation}$

解该矩阵,即得AR模型参数的估计值$\hat{\phi}_{1}, \hat{\phi}_{2}, \cdots, \hat{\phi}_{p}$.

选取以下方程组中的任意一个方程

$\begin{equation}\label{eq:a11}\left( \begin{array}{cccc}{r_{x}(1)} & {r_{x}(0)} & {\dots} & {r_{x}(p-1)} \\ {r_{x}(2)} & {r_{x}(1)} & {\cdots} & {r_{x}(p-2)} \\ {\vdots} & {\vdots} & {\ddots} & {\vdots} \\ {r_{x}(p)} & {r_{x}(p-1)} & {\dots} & {r_{x}(0)}\end{array}\right) \left( \begin{array}{c}{1} \\ {\hat{\phi}_{1}} \\ {\vdots} \\ {\hat{\phi}_{p}}\end{array}\right)=\left( \begin{array}{c}{\hat{\phi}_{1} \sigma_{v}^{2}} \\ {\hat{\phi}_{2} \sigma_{v}^{2}} \\ {\vdots} \\ {\hat{\phi}_{p} \sigma_{v}^{2}}\end{array}\right), \end{equation}$

可以计算出噪声方差$\sigma_{v}^{2}$的估计值.在实际估计过程中,可选取多个方程求解$\sigma_{v}^{2}$取平均,使得估计更加准确.由于模型的阶数未知,且本文研究低阶AR模型,分别取$p$=2, 3, 4, 5计算噪声方差,并取其最小值作为噪声方差$\sigma_{v}^{2}$的估计值.

图 1以AR(2)模型为例,令$\lambda_{1}=\lambda_{2}=0.5$, $T=500$, $\sigma_{\varepsilon}=0.5$, $\sigma_{v}=0.25$时,利用该方法计算10000次得到的信噪比分布情况.根据图中拟合的正态分布曲线,计算其变异系数为(Coefficient of Variation) $C V=\sigma / \mu=0.046$,表明该模型的信噪比较为集中,即以上方法比较稳定,可以用来计算AR模型的信噪比.

图 1

图 1   信噪比的分布图


表 1表 2中,每个格内的数据是以AR(2)模型为例,保持$\sigma_{\varepsilon}=0.5$$\sigma_{v}=0.01$不变,在不同的$\lambda_{\max }$$T$取值下,相应模型的信噪比以及分别使用AIC和BIC准则定阶的准确率, $\lambda_{\max }$表示AR(2)模型的两个特征根取重根.从2个表中可以看出,随着$\lambda_{\max }$$T$的增大,定阶准确率越高,信噪比也越大,初步判断定阶准确率与信噪比的变化趋势一致.

表 1   AIC:不同$\lambda_{\max }$$T$下对应的定阶准确率与信噪比

序列长度$\lambda_{\max }=0.4$$\lambda_{\max }=0.5$$\lambda_{\max }=0.6$
准确率(%)信噪比准确率(%)信噪比准确率(%)信噪比
30062.036.83188.438.61190.541.012
40073.836.83890.638.62791.241.038
50081.536.84290.838.64291.141.064
60085.236.86291.338.64890.841.072
70087.636.86491.338.65691.041.078

新窗口打开| 下载CSV


表 2   BIC:不同$\lambda_{\max }$$T$下对应的定阶准确率与信噪比

序列长度$\lambda_{\max }=0.4$$\lambda_{\max }=0.5$$\lambda_{\max }=0.6$
准确率(%)信噪比准确率(%)信噪比准确率(%)信噪比
30018.036.83173.538.61199.441.012
40027.636.83888.938.62799.941.038
50038.636.84295.738.642100.041.064
60050.236.86298.438.648100.041.072
70060.936.86499.538.656100.041.078

新窗口打开| 下载CSV


4 实验步骤

为进一步研究在噪声标准差、序列长度和特征根等因素的影响下,模型的信噪比与定阶准确率之间的关系,设计以下实验,依据实验结果分别得到信噪比和定阶准确率随这些因素变化的趋势,并尝试以这些因素为转换量建立信噪比与定阶准确率的关系.

(1)构造平稳低阶AR(p)模型$(p=2, 3, 4, 5)$

$\lambda_{1}, \lambda_{2}, \cdots, \lambda_{p}$为齐次线性差分方程的$p$个特征根,满足$\left|\lambda_{i}\right|<1, i=1, 2, \cdots, p$,包括实根和共轭复根,由方程$\left(\lambda-\lambda_{1}\right)\left(\lambda-\lambda_{2}\right) \cdots\left(\lambda-\lambda_{p}\right)=0$可以得到模型的特征方程:

即可构造中心化的AR(p)模型:

其中$\varepsilon_{t} \sim N(0, 0.25)$;

(2)产生噪声信号

首先产生一组服从正态分布$N(0, 0.25)$的随机数$\varepsilon=\left(\varepsilon_{1}, \varepsilon_{2}, \cdots, \varepsilon_{T}\right)$;定义输入噪声标准差$\sigma_{v}$的变化范围,再产生一组服从正态分布$N\left(0, \sigma_{v}^{2}\right)$的随机数$v=\left(v_{1}, v_{2}, \cdots, v_{T}\right)$,设置AR(p)模型的初值$x_{1}, x_{2}, \cdots, x_{p}=0$,并定义序列长度$T$的变化范围,且$T>p$,然后将产生的随机干扰误差项$\varepsilon_{t}$和噪声$v_{t}$加入到原始信号中,得到信号

(3)计算信噪比

利用以上估计AR模型信噪比的方法计算在确定噪声标准差$\sigma_{v}$和序列长度$T$的条件下,加入噪声$v_{t}$后的AR(p)模型信噪比的估计值,为了保证实验的准确度,重复计算100次,取其平均值作为该模型的信噪比;

(4)计算定阶准确率

分别使用AIC、BIC和FPE准则,在与步骤(3)相同$\sigma_{v}$$T$的条件下,给加入噪声后的AR(p)模型定阶,重复实验100次,计算三种方法的定阶准确率,并重复该过程100次,取其平均值作为该方法的定阶准确率;

(5)实验结果

记录在其变化范围内,不同的$\lambda_{1}, \lambda_{2}, \cdots, \lambda_{p}$, $\sigma_{v}$$T$条件下,所对应的AR(p)模型的信噪比,以及利用AIC、BIC和FPE准则给该模型定阶的准确率,根据这些记录数据分别得出该模型的信噪比和准确率随特征根、噪声标准差和序列长度变化的趋势.

5 实验结果与分析

对于AR(p)模型$x_{t}=\phi_{1} x_{t-1}+\phi_{2} x_{t-2}+\cdots+\phi_{p} x_{t-p}+\varepsilon_{t}+v_{t}$,在进行实验的过程中,令齐次线性差分方程的$p$个特征根$\lambda_{1}, \lambda_{2}, \cdots, \lambda_{p}$满足$\lambda_{1}=\lambda_{2}=\cdots=\lambda_{p}=\left|\lambda_{\max }\right|$,其最大特征根$\left|\lambda_{\max }\right|$取[0.05:0.05:0.95] (即$\left|\lambda_{\max }\right|$从0.05开始按步长0.05取值到0.95);输入高斯白噪声$v_t$的均值$E\left(v_{t}\right)=0$,标准差$\sigma_{v}$取[0.01:0.01:0.5];模型的序列长度$T$取[100:100:1000].

图 2是以AR(3)模型为例,在$\left|\lambda_{\max}\right|=0.6$, $T=500$, $\sigma_{v}=0.25$的条件下,保持其中两个特征根的值不变,改变另一个特征根的值,即$\left|\lambda_{1}\right|=\left|\lambda_{2}\right|=0.5$, $\lambda_{3}$取[0.1:0.1:0.5]时, AIC、BIC和FPE准则的定阶准确率随$\lambda_{3}$变化的图像; 图 3为在相同的设定条件下,令$\left|\lambda_{1}\right|=0.6$, $\left|\lambda_{2}\right|=0.5$, $\lambda_{3}$取[0.1:0.1:0.5]时,它们的定阶准确率随$\lambda_{3}$变化的图像.由图可知,对于一个AR(p)模型,在确定的噪声标准差和序列长度下,当其$p$个特征根满足$\left|\lambda_{1}\right|=\left|\lambda_{2}\right|=\cdots=\left|\lambda_{p}\right|=\left|\lambda_{\max }\right|$时,定阶准确率达到该最大特征根条件下的最大值,且$\left|\lambda_{1}\right|+\left|\lambda_{2}\right|+\cdots+\left|\lambda_{p}\right|$越大,准确率越高.

图 2

图 2   定阶准确率随$\lambda_{3}$的变化


图 3

图 3   q定阶准确率随$\lambda_{3}$的变化


如果模型有$p$重根,说明相应平稳序列的能量在$\left|\lambda_{\max}\right|$处比较集中,基于这个现象,在研究过程中为使实验更加简练,取特征值为$p$重实根,为参考模型判断三种方法的定阶准确率与最大特征根$\left|\lambda_{\max}\right|$、噪声标准差$\sigma_{v}$和序列长度$T$之间的关系.

5.1 定阶准确率与$\sigma_{v}$的关系

由以上的结论,可以取AR(p)模型的$p$个特征根满足$\lambda_{1}=\lambda_{2}=\dots=\lambda_{p}=\left|\lambda_{\max }\right|$进行实验,并保持最大特征根$\left|\lambda_{\max}\right|$和序列长度$T$不变,令噪声标准差$\sigma_{v}$在其变化范围内取值,研究AIC、BIC和FPE准则在相同AR(p)模型下,其定阶准确率与$\sigma_{v}$的关系.

图 4以AR(2)为例, $\lambda_{1}=\lambda_{2}=\left|\lambda_{\max }\right|=0.4, \quad T=500$时,三种方法的定阶准确率随$\sigma_{v}$变化的图像.由图可知,随着噪声标准差的增大,它们的定阶准确率均没有明显增大或减小的趋势,而只是在某一准确率附近波动,并且在这种条件下,三种方法的定阶效果为: $A I C>F P E>B I C$.所以以下实验只研究定阶准确率与最大特征根、序列长度之间的关系.

图 4

图 4   $\sigma_{v}$对定阶准确率影响不大


5.2 定阶准确率与$\left|\lambda_{\max}\right|$$T$的关系

利用5.1节中的结论:噪声标准差对定阶准确率影响不大,可以保持$\sigma_{v}=0.3$不变,研究AIC、BIC和FPE准则在相同AR(p)模型下,其定阶准确率与$\left|\lambda_{\max}\right|$$T$之间的关系,令模型的$p$个特征根满足$\lambda_{1}=\lambda_{2}=\dots=\lambda_{p}=\left|\lambda_{\max }\right|$.

图 5图 6图 7分别为使用AIC、FPE和BIC准则,以AR(4)模型为例,其定阶准确率随$\left|\lambda_{\max}\right|$$T$变化的图像.由图可知,随着最大特征根和序列长度的增大,它们的定阶准确率均呈上升趋势,即准确率随最大特征根和序列长度的增大而增大.对于确定的序列长度,定阶准确率与最大特征根为一一对应的单调关系,准确率开始随最大特征根的增大而缓慢增长,当最大特征根大于某一阈值时,准确率会大幅上升,并最终趋于平稳,达到该方法的最大定阶准确率,并且AIC准则所能达到的最大定阶准确率约为90%, BIC可以达到100%的定阶准确率, FPE只能达到60%;而对于确定的最大特征根,序列长度在其变化范围内,当$\left|\lambda_{\max}\right|$较小时,准确率随序列长度的变化并不显著,当$\left|\lambda_{\max}\right|$大于某一阈值时(约为$\left|\lambda_{\max }\right| =0.5)$,序列长度越大,准确率越高,最终也会趋于平稳,达到该方法的最大定阶准确率.说明模型的特征根靠近单位圆或者序列长度达到某一阈值时,三种方法的定阶准确率表现出峰值,相应平稳序列的能量在$\left|\lambda_{\max }\right| \rightarrow 1$处比较集中.基于该现象,在利用AIC、BIC或者FPE准则对AR模型定阶时,可以通过模型的特征根相对于单位圆的距离和序列长度判断准确率的变化情况.

图 5

图 5   AIC:准确率随$\left|\lambda_{\max}\right|$$T$的变化


图 6

图 6   FPE:准确率随$\left|\lambda_{\max}\right|$$T$的变化


图 7

图 7   BIC:准确率随$\left|\lambda_{\max}\right|$$T$的变化


5.3 SNR与$\left|\lambda_{\max}\right|$$T$的关系

由于定阶准确率与噪声标准差无关,可以保持$\sigma_{v}=0.3$不变,运用第3节中估计AR模型信噪比的方法,研究对于同一AR(p)模型,其信噪比与最大特征根$\left|\lambda_{\max}\right|$和序列长度$T$之间的关系.

图 8是以AR(4)模型为例,模型信噪比随最大特征根和序列长度变化的图像.由图 8可知, SNR的值随着最大特征根和序列长度的增大而增大,与5.2节中定阶准确率随最大特征根和序列长度的变化趋势基本一致,但由于定阶方法性能的制约,当最大特征根和序列长度增大到一定程度,准确率达到该方法的最大定阶准确率后,会趋于平稳或小范围的波动,即使SNR还在持续增大,而准确率并不会增长.对于确定的序列长度,随着最大特征根的增大, SNR的值越大,因此在已知AR模型序列长度的条件下,根据图像中所反映的一一对应的单调关系,可以根据信噪比选择合适的定阶方法.

图 8

图 8   SNR随序列长度和最大特征根的增大而增大


6 利用SNR选择定阶方法

由第5节中的结论:当模型的$p$个特征根满足$\left|\lambda_{1}\right|=\left|\lambda_{2}\right|=\cdots=\left|\lambda_{p}\right|=\left|\lambda_{\max }\right|$时, AIC、BIC和FPE的定阶准确率均达到该最大特征根条件下的最大值.因此对于一个AR模型,令其$p$个特征根满足$\lambda_{1}=\lambda_{2}=\cdots=\lambda_{p}=\left|\lambda_{\max }\right|$,转换成特征根为$p$重实根的参考模型,并利用第3节的方法计算该模型的信噪比,通过比较各种方法对参考模型定阶的准确率择优选择较大的定阶准则.把AR模型定阶的问题,转变为利用参考模型的信噪比选择原AR模型定阶方法的问题,使得定阶方法的选择具有可操作性.

图 9图 12分别为不同序列长度下, $\sigma_{v}=0.01$时,以AR(4)模型为例, AIC、BIC和FPE准则的定阶准确率随信噪比变化的图像.从4幅图可以看到,随着信噪比的增大,定阶准确率越高,最终都趋于平稳;序列长度越大,达到最高准确率时对应的信噪比越小;并且与图 2图 3中三种方法定阶准确率的变化趋势一致.在低信噪比下,它们的定阶效果均不佳;而在高信噪比下, AIC和BIC两种方法的定阶准确率均达到80%以上,且BIC可以达到100%的准确率.

图 9

图 9   $T=80$时准确率随SNR的变化


图 10

图 10   $T=100$时准确率随SNR的变化


图 11

图 11   $T=200$时准确率随SNR的变化


图 12

图 12   $T=500$时准确率随SNR的变化


表 3表 5中, AIC、BIC和FPE分别缩写为A、B、F,保持$\sigma_{v}=0.01$不变,每个格内的数据是相应AR模型与序列长度,满足准确率排序的信噪比端点值,格中数据的下标表示在该信噪比范围内,最佳定阶准则的准确率(%)端点值,例如表 3$33.9_{0.0}$$37.4_{29.1}$表示对AR(2)模型定阶时,三种方法定阶准确率大小排序为$FPE>AIC>BIC$的信噪比范围是[33.9, 37.4],在该范围内,最佳定阶方法FPE准则的准确率范围是[0.0, 29.1].表格中AR(4)模型的数据可以由图 9图 11图 12得到.从3个表中可以看出,在相同条件下,模型阶数越高,信噪比越大;在信噪比较低时, FPE准则的定阶效果优于AIC和BIC,但其准确率低于50%;在信噪比较高时, AIC和BIC准则的定阶效果优于FPE,且准确率随着信噪比的增大而增大.对于已知信噪比的AR模型,通过对比表格数据,可以选择合适的定阶方法.

表 3   $T=80$时模型信噪比及定阶准确率的范围

准确度AR(2)AR(3)AR(4)AR(5)
上界下界上界下界上界下界上界下界
$F>A>B$$33.9_{0.0}$$37.4_{29.1}$$33.9_{0.0}$$47.8_{32.4}$$33.9_{0.0}$$57.9_{25.4}$$33.9_{0.0}$$78.6_{31.9}$
$A>F>B$$37.4_{29.1}$$40.7_{73.0}$$47.8_{32.4}$$54.2_{71.0}$$57.9_{25.4}$$71.0_{71.5}$$78.6_{31.9}$$92.6_{69.3}$
$A>B>F$$40.7_{73.0}$$44.1_{88.5}$$54.2_{71.0}$$62.1_{88.2}$$71.0_{71.5}$$82.1_{88.6}$$92.6_{69.3}$$108.1_{86.0}$
$B>A>F$$44.1_{88.5}$$63.4_{99.1}$$62.1_{88.2}$$85.5_{99.3}$$82.1_{88.6}$$107.8_{99.2}$$108.1_{86.0}$$129.6_{99.9}$

新窗口打开| 下载CSV


表 4   $T=200$时模型信噪比及定阶准确率的范围

准确率AR(2)AR(3)AR(4)AR(5)
上界下界上界下界上界下界上界下界
$F>A>B$$33.9_{0.0}$$36.1_{27.9}$$33.9_{0.0}$$43.7_{30.1}$$34.0_{0.0}$$55.3_{33.4}$$34.1_{0.0}$$70.8_{36.7}$
$A>F>B$$36.1_{27.9}$$38.6_{83.7}$$43.7_{30.1}$$49.2_{78.6}$$55.3_{33.4}$$64.0_{79.2}$$70.8_{36.7}$$83.3_{82.2}$
$A>B>F$$38.6_{83.7}$$40.8_{90.0}$$49.2_{78.6}$$54.1_{89.9}$$64.0_{79.2}$$71.6_{90.2}$$83.3_{82.2}$$94.0_{90.9}$
$B>A>F$$40.8_{90.0}$$52.0_{99.5}$$54.1_{89.9}$$89.5_{100.0}$$71.6_{90.2}$$113.7_{99.7}$$94.0_{90.9}$$137.8_{99.9}$

新窗口打开| 下载CSV


表 5   $T=500$时模型信噪比及定阶准确率的范围

准确率AR(2)AR(3)AR(4)AR(5)
上界下界上界下界上界下界上界下界
$F>A>B$$34.0_{0.0}$$35.5_{34.5}$$34.0_{0.0}$$41.4_{33.6}$$34.1_{0.0}$$51.0_{34.7}$$34.1_{0.0}$$64.8_{38.4}$
$A>F>B$$35.5_{34.5}$$37.2_{84.1}$$41.4_{33.6}$$46.1_{86.2}$$51.0_{34.7}$$58.8_{86.3}$$64.8_{38.4}$$74.7_{85.1}$
$A>B>F$$37.2_{84.1}$$38.5_{92.0}$$46.1_{86.2}$$49.0_{90.7}$$58.8_{86.3}$$63.1_{91.4}$$74.7_{85.1}$$80.8_{92.8}$
$B>A>F$$38.5_{92.0}$$66.4_{99.5}$$49.0_{90.7}$$90.8_{100.0}$$63.1_{91.4}$$115.6_{99.9}$$80.8_{92.8}$$140.8_{100.0}$

新窗口打开| 下载CSV


对于任意一个AR模型的定阶方法选择问题,根据以上的结论提出一种利用信噪比选择合适定阶方法的方案.其步骤如下:

(1)已知带有噪声的AR模型序列长度为$T$和一组观测值$x_{1}, x_{2}, \cdots, x_{T}$,利用第3节的方法估计噪声的方差$\sigma_{v}^{2}$和模型的信噪比$S N R_{T}$;

(2)设观测值拟合为AR(p)模型($p$=2, 3, 4, 5),初值为$x_{1}, x_{2}, \cdots, x_{p}$,令模型的特征值满足$\lambda_{1}=\lambda_{2}=\cdots=\lambda_{p}=\left|\lambda_{\max }\right|$,通过$\left|\lambda_{\max }\right|$取[0.05:0.05:0.95] (在(0, 1)范围内取其他步长均可),尽可能全面的取遍AR(p)模型,在确定序列长度$T$和噪声标准差$\sigma_{v}$的条件下按第4节进行实验;

(3)记录在不同阶数的AR(p)模型和$\left|\lambda_{\max }\right|$取值下,模型的信噪比SNR以及利用AIC、BIC、FPE准则定阶的准确率;

(4)根据记录数据拟合AIC、BIC和FPE准则的定阶准确率随信噪比变化的曲线,如图 912所示,并由图像得到准确率排序以及信噪比、准确率的范围,如表 35所示,通过$S N R_{T}$对比表格数据确定准确率较高的定阶准则.

在实际应用中,例如功能性磁共振成像(Functional Magnetic Resonance Imaging, fMRI), fMRI数据包含噪声并且序列长度较短.假设已知一组fMRI数据,序列长度为200,利用第3节的方法估计其信噪比$SNR=48$,对比表 4中的数据,如果拟合为AR(2)模型,由于信噪比的值满足$40.8<48<52.0$而落入第四行的信噪比范围,即选择BIC准则定阶的准确率约为100%;如果拟合为AR(3)模型,信噪比落入第二行的信噪比范围,即选择AIC准则定阶的准确率约为68%;如果拟合为AR(4)模型,选择FPE准则定阶的准确率约为22%;如果拟合为AR(5)模型,选择FPE准则定阶的准确率约为14%;综上所述,建议采用BIC准则作为模型的定阶方法.再例如一组AR模型数据,假设其序列长度为80,估计其信噪比为$S N R=43$,对比表 3中的数据,如果拟合为AR(2)模型,选择AIC准则定阶的准确率约为88%;如果拟合为AR(3)模型,选择FPE准则定阶的准确率约为21%;如果拟合为AR(4)模型,选择FPE准则定阶的准确率约为10%;如果拟合为AR(5)模型,选择FPE准则定阶的准确率约为7%,即可以采用AIC准则作为模型的定阶方法.

7 方法有效性

为验证以上提出的方法是否可行,设计以下实验过程.保持$\sigma_{\varepsilon}=0.5$$\sigma_{v}=0.01$不变,令模型的序列长度$T=500$,初值$x_{1}, x_{2}, \cdots, x_{p}=0$,即与表 5相同的设定条件;对于阶数$p$=2, 3, 4, 5的AR模型,分别令其特征值满足$\lambda_{1}=\lambda_{2}=\cdots=\lambda_{p}=\left|\lambda_{\max }\right|$进行实验,其中$\left|\lambda_{\max }\right|$取[0.05:0.05:0.95],产生多组观测值$x_{1}, x_{2}, \cdots, x_{T}$并计算其平均信噪比;利用AIC、BIC、FPE准则对不同阶数以及不同$\left|\lambda_{\max }\right|$取值下的多组观测值序列定阶,记录三种方法的定阶准确率.由记录数据拟合不同阶数下定阶准确率随信噪比变化的图像并由该图像得到准确率排序以及对应的信噪比、准确率范围,如表 5所示.

对于不同阶数的AR模型,在保持与上述相同$\sigma_{\varepsilon}$$\sigma_{v}$$T$的条件下分别随机产生1000组观测值序列,把前300组序列作为训练数据计算模型的平均信噪比,利用该信噪比参照表 5中的数据选择定阶方法并估计其定阶准确率;后700组序列作为测试数据,选择相同的方法定阶并计算其准确率.通过对比前后两组数据的定阶准确率,判断所提出方法的有效性.

表 6中推荐方法为参照表 5中数据选择的定阶方法,准确率1为利用表 5数据估计的定阶准确率,准确率2为选择推荐方法定阶得到的准确率.从表中可以看出,准确率1与准确率2基本保持一致,验证了该方法的有效性,说明信噪比对于AR模型定阶方法的选择具有一定的指导作用,可以为不同定阶方法的优劣比较提供一种判断.

表 6   模型真实阶数与估计阶数的对比

阶数$SNR$推荐方法准确率1准确率2
361.9$BIC$100%100%
475.0$BIC$100%100%
588.3$BIC$100%100%

新窗口打开| 下载CSV


8 总结

AR模型是线性时间序列分析中最简单的模型,有限阶的AR模型已经广泛地应用于科研和生产中,所以讨论AR模型具有重要的实际意义.本文综合考虑了噪声标准差、模型序列长度和特征根对定阶准确率的影响,引入一种估计模型信噪比的方法,并以该信噪比作为评价AIC、BIC和FPE三种定阶方法准确度的标准.经过实验得出的结论如下:随着信噪比的增大,定阶准确率越高,而由于定阶方法性能的制约,准确率最终会趋于平稳;当模型的$p$个特征根满足$\left|\lambda_{1}\right|=\left|\lambda_{2}\right|=\cdots=\left|\lambda_{p}\right|=\left|\lambda_{\max }\right|$时,定阶准确率达到该最大特征根条件下的最大值;定阶准确率与模型的序列长度、特征根相对于单位圆心的距离呈正相关,与输入噪声的标准差无关;信噪比随最大特征根和序列长度的增大而增大,与定阶准确率的变化趋势一致.最后本文给出了对于已知的AR模型序列,通过$p$重实根的转换,再根据转换后的参考模型信噪比选择原模型定阶方法的方案,并验证了该方法的有效性,初步建立了信噪比与AR模型定阶方法之间的联系,为不同定阶方法优劣的比较提供了新的视角.待研究的问题有:对于弱信号条件下的AR模型, AIC、BIC和FPE三种方法的定阶效果均不佳,有待提出新的定阶方法;高阶AR模型信噪比与定阶准确率之间的关系.

参考文献

Subasi A , Alkan A , Koklukaya E , et al.

Wavelet neural network classification of EEG signals by using AR model with MLE preprocessing

Neural Networks, 2005, 18 (7): 985- 997

DOI:10.1016/j.neunet.2005.01.006      [本文引用: 1]

Yin Y , Shang P .

Forecasting traffic time series with multivariate predicting method

Applied Mathematics and Computation, 2016, 291, 266- 278

DOI:10.1016/j.amc.2016.07.017      [本文引用: 1]

Khorshidi S , Karimi M , Nematollahi A R .

New autoregressive (AR) order selection criteria based on the prediction error estimation

Signal Processing, 2011, 91 (10): 2359- 2370

DOI:10.1016/j.sigpro.2011.04.021      [本文引用: 1]

刘源, 尹慧萍, 朱建平.

基于随机抽取的AR模型定阶和参数评估

统计与决策, 2016, 24, 16- 18

URL     [本文引用: 1]

Box G E P , Jenkins G M , Reinsel G C , et al. Time Series Analysis:Forecasting and Control. New Jersey: John Wiley & Sons, 2015

[本文引用: 1]

Fan J , Yao Q . Nonlinear Time Series:Nonparametric and Parametric Methods. New York: Springer Science & Business Media, 2008

[本文引用: 1]

Gooijer J G , Abraham B , Gould A , et al.

Methods for determining the order of an autoregressive-moving average process:A survey

International Statistical Review, 1985, 53 (3): 301- 329

DOI:10.2307/1402894      [本文引用: 1]

Koehler A B , Murphree E S .

A comparison of the Akaike and Schwarz criteria for selecting model order

Journal of the Royal Statistical Society, 1988, 37 (2): 187- 195

URL     [本文引用: 1]

Bai D P , Wan Q , Guo X S , et al.

Parametric SNR estimation based on auto-regressive model in AWGN channels

Journal of Electronic Science and Technology, 2008, 6 (1): 21- 24

URL     [本文引用: 2]

/