数学物理学报, 2021, 41(4): 1124-1134 doi:

论文

回归模型参数的变点检测方法研究

郑金辉,1, 余旌胡,1, 丁义明,1, 鲍泽宇,2

Research on Change-Point Detection for Parameters in Regression Model

Zheng Jinhui,1, Yu Jinghu,1, Ding Yiming,1, Bao Zeyu,2

通讯作者: 余旌胡, E-mail: yujh67@126.com

收稿日期: 2020-11-2  

Received: 2020-11-2  

作者简介 About authors

郑金辉,E-mail:zhengjh@whut.edu.cn , E-mail:zhengjh@whut.edu.cn

丁义明,E-mail:dingym@whut.edu.cn , E-mail:dingym@whut.edu.cn

鲍泽宇,E-mail:windy888@mail.ustc.edu.cn , E-mail:windy888@mail.ustc.edu.cn

Abstract

This paper constructs a method to detect the change point of regression model parameters based on the non-stationary measurement index (NS). Under the premise of selecting the appropriate parameter estimation method and window size, the residual sequence of the sample in the window and the corresponding NS value are calculated by judging the stationarity of the residual sequence within the window to achieve the purpose of change point detection. A series of two-segment regression models are constructed for experimental verification. The results show that this method can effectively detect the position of the change point of the two-segment regression model. The experimental results of comparison with other methods also show that the method is more accurate in the detection of regression model parameter change points.

Keywords: Regression model ; Change point detection ; Non-stationary measure

PDF (963KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

郑金辉, 余旌胡, 丁义明, 鲍泽宇. 回归模型参数的变点检测方法研究. 数学物理学报[J], 2021, 41(4): 1124-1134 doi:

Zheng Jinhui, Yu Jinghu, Ding Yiming, Bao Zeyu. Research on Change-Point Detection for Parameters in Regression Model. Acta Mathematica Scientia[J], 2021, 41(4): 1124-1134 doi:

1 引言

变点检测问题起源于质量工程, 最初由[1]在研究质量检测过程中提出. 在连续抽样检测过程中, 由于生产过程中某一时刻发生故障, 导致产品的质量超过其质量控制范围, 故障发生的时刻就认为是变点. 简单概括, 变点就是时间序列模型中的某个或某些量发生变化的点. 变点分析, 就是利用一定的统计指标、统计方法或其他方法, 对时间序列进行识别分析, 判断这种变化是否显著, 并估计出变点的位置以及变化的幅度.

目前变点问题的研究主要集中在对分布函数参数变点[1-5]、分布函数自身变点[6]以及回归函数参数变点[7]的研究上. 变点问题的研究涉及了统计理论的众多内容和研究方法, 结合了统计控制理论、估计理论、假设检验理论和Bayes理论等, 是统计推断中一个非常有意义的分支. 在经济金融[8-10]、医学[11-12]和气象[13-14]方面也有广泛的应用. 本文主要研究了回归模型参数变点的检测问题, 通过对自变量$ x $与因变量$ Y $在时间区间内的抽样值, 判断二者关系是否发生变化, 如果发生变化, 则找出二者关系发生改变的时间点, 即引起关系发生变化的参数变点.

回归模型是用来描述因变量与自变量之间关系的数学模型. 通常认为, 回归模型的回归系数在整个样本空间是保持不变的. 但事实并非如此, 目前由于实际应用中数据的复杂性, 导致单一的回归模型已经不能很好的反映两者之间的关系, 因此分段回归模型引起了学者的广泛研究. Quandt[15]最先提出分段线性回归模型的概念. 之后此类模型的变点检测问题取得了很多研究成果, 其中被广泛应用的方法是极大似然法[16-18], 通过构造似然比统计量对分段线性回归模型的是否存在变点进行假设检验, 从而估计出变点的位置. 其次, 最小二乘法[19-20]和Bayes理论也被广泛使用. Tang等[21]运用Bayes理论研究了只有一个变点的分段线性回归模型, 得到了变点的后验分布、回归系数和共同方差的估计值. 对于非线性回归模型的变点问题, 由于非线性的估计困难, 在该方面的文献并不丰富. 其中Ciuperca[22]针对非线性回归模型中的多变点问题, 拓展了分段线性回归模型中的M -估计的结果, 得到了变点位置的渐进分布. 之后Ciuperca[23]考虑了非线性回归模型中的最小绝对偏差估计量, 得到了变点估计值的收敛速度和渐进分布, 并且当模型的误差包含离群值时, LAD方法具有更高的鲁棒性. Boldea和Hall[24]基于最小二乘原理, 给出了非线性回归模型中多变点的估计值.

变点问题是许多其它学科经常遇到的问题, 如动态优化问题中对动态环境的检测是设计高效动态优化算法设计的前提、信号处理中怎样探测与分离弱信号等等. 因此怎样准确有效的处理变点问题, 尤其是回归模型参数的变化问题, 具有理论意义与实践价值. 本文针对二分段回归模型, 研究因参数变化引起的模型结构发生改变的变点位置. 由于参数的变化导致数据来源于同类模型但非同一模型, 变点前后的两个子序列分别适应不同的回归模型. 目前研究这种分段回归模型参数变点的方法有极大似然法、最小二乘法、Bayes理论等, 但这些方法中能够检测到参数弱变化的较少. 本文利用文献[25]中数据流的非平稳性度量指标(NS), 构造针对回归模型参数变化的变点检测方法. 其原理是利用抽样数据流进行参数估计后所得残差序列的平稳性大小, 反映抽样数据流中是否存在变点. 如果NS值越大, 平稳性越低, 存在变点的可能性越大. 该方法通过选定合适的窗口大小并移动窗口, 比较不同窗口内残差序列的NS值, 最终找到参数发生变化的具体位置. 实验表明, 此方法能有效检测到二分段回归模型的变点位置. 对比实验发现, 在参数弱变化情况下的变点检测, 本文所提出的检测方法准确性更高.

2 预备知识

本节介绍非平稳性度量指标(NS)以及二分段回归模型变点问题的数学描述.

2.1 非平稳性度量指标NS

平稳性是时间序列的一个重要特征, 它刻画了时间序列的统计性质不随时间变化而变化的特性. 非平稳性度量[25-27]方法以遍历论和信息论为思想基础, 研究非平稳性的度量问题, 提出了其度量指标NS, 给出了该指标的近似算法. NS取值于区间$ [0, 1] $, 时间序列越平稳, 该值越接近于0, 反之越接近于1, 因此NS能够反映出数据的非平稳性程度.

非平稳性度量的一个直接应用就是模型选择. 残差序列的平稳性反映模型的正确性与参数估计方法的优良性, 只有当残差序列足够平稳时, 模型才可能有较好的拟合优度. 如果残差序列不够平稳, 可以认为残差序列中还存在着某种趋势信号, 所选择的模型未达到最佳刻画系统效果. 实际上, 为了检验模型是否适合所给的数据, 只需要研究残差序列的非平稳性程度. 残差序列NS值的大小刻画了序列接近于i.i.d. 的程度, NS值越小, 序列越接近于i.i.d., 无模型选择错误.

2.2 二分段模型变点检测问题的数学描述

二分段回归模型变点检测问题可用数学语言描述如下.

设在时间区间$ (0, T] $内获取了$ L $个样本$ \{(x_{k}, y_{k})\}^L_{k = 1} $, 假设此$ L $个样本中, 前面$ t_{0} $个样本来源于回归模型$ f_{\theta_{1}} $, 而后面$ L-t_{0} $个样本来源于回归模型$ f_{\theta_{2}} $, $ t_{0} $未知. 即有

$ \begin{equation} Y_{i} = f_{\theta_{1}}(x_{i})\cdot {\bf 1}_{0<i\le t_{0}}+f_{\theta_{2}}(x_{i})\cdot {\bf 1}_{t_{0}<i\le T}, \end{equation} $

其中$ \theta_{1}\ne\theta_{2} $, $ \theta_{1} $$ \theta_{2} $可为多维向量. 此情形下, 变点检测问题就是根据此$ L $个样本值去判断变点$ t_{0}+1 $的位置.

3 变点检测方法的一般步骤

本文所构造的变点检测方法主要步骤可以描述为: 先确定一个最佳的滑动窗口长度, 然后通过滑动窗口确定变点存在的可能窗口, 最后在变点所在窗口内对变点的准确位置进行探测. 本节将详细介绍算法的几个关键步骤.

3.1 最优滑动窗口长度的定义

(1) 任意固定$ l(l \ge1) $, 从两个模型中分别抽取$ l_{1} $$ l_{2} $个样本, 其中$ 1<l_{1}<l $, $ 1<l_{2}<l $, 且$ l_{1}+l_{2} = l $, 构成长度为$ l $的样本$ X = (x_{k}: 1 \le k \le l) $, 其中$ (x_{1}, \cdots, x_{l_{1}}) $来源于模型$ f_{\theta_{1}} $, $ (x_{l_{1} +1}, \cdots, x_{l}) $来源于模型$ f_{\theta_{2}} $, 此时变点位置设置为$ l_{1}+1 $;

(2) 对此$ l $个样本, 采用合适的参数估计方法进行估计, 得到估计值$ \hat{y}_{k} $及相应的残差序列$ \hat{\varepsilon}_{k} = y_{k}-\hat{y}_{k}, k = 1, \cdots, l $;

(3) 计算残差序列{$ \hat{\varepsilon}_{k}, k = 1, \cdots, l $} 对应的非平稳性度量值$ NS(l, l_{1}) $. 给定阈值$ \alpha_{0} $, 若$ NS(l, l_{1}) \ge \alpha_{0} $, 则判断$ l $个样本中存在变点;

(4) 设置$ l_{1} $从1变化到$ l-1 $, 累计$ NS(l, l_{1}) \ge \alpha_{0} $的次数, 即判断变点存在正确的次数, 再给定阈值$ \alpha_{l} $, 若

$ \begin{equation} \frac{\sharp\{0<l_{1}<l: NS(l, l_{1}) \ge \alpha_{0}\}}{l-1} \ge \alpha_{l}, \end{equation} $

则满足$ (3.1) $式的最小$ l $为此轮实验对应最优的滑动窗口长度.

(5) 重复实验$ M(M \ge 2) $轮, 并记每一轮所得到的最优窗口长度为$ l_{j}(j \le M) $.$ l = \frac{1}{M}\sum\limits_{j = 1}^{M}l_{j} $, 并称之为对应二分段模型的最优窗口长度.

3.2 变点准确位置的探测

3.2.1 确定变点存在的可能窗口

(1) 根据选定的最优滑动窗口长度$ l $, 从数据$ (x_{i}, y_{i}) $开始, 利用第$ i $个窗口内的数据$ \{(x_{k}, y_{k})\}^{i+l-1}_{k = i} $, 采用合适的参数估计方法, 对模型的参数进行估计, 得到估计值$ \hat{y}_{k}, k = i, $$ i+1, \cdots, i+l-1 $, 以及相应的残差序列$ \hat{\varepsilon}_{k} = y_{k}-\hat{y}_{k}, k = i, i+1, \cdots, i+l-1 $ (初始$ i = 1 $, 且$ 1 \le i \le L-l+1 $);

(2) 计算残差序列$ \hat{\varepsilon}_{k}, k = i, i+1, \cdots, i+l-1 $对应的非平稳性度量值$ NS(i) $, 即$ NS(i) $为以$ (x_{i}, y_{i}) $为第一个数据的第$ i $个窗口内包含的所有数据的残差序列的非平稳性度量值;

(3) 若$ NS(i) \ge \alpha_{0} $, 判断第$ i $个窗口内存在变点; 若$ NS(i)<\alpha_{0} $, 判断第$ i $个窗口内不存在变点, 保持窗口长度不变, 滑动窗口, 令$ i = i+1 $, 重复上述操作.

3.2.2 对变点的准确位置进行探测

对确实存在变点的窗口进行变点准确位置探测, 设变点存在于第$ i $个窗口内, 则在第$ i $个窗口内对数据$ \{(x_{k}, y_{k})\}^{i+l-1}_{k = i} $进行检验, 确定变点的具体位置.

(1) 若$ i = 1 $, 用反证法, 假设$ i+l-1 $为变点位置, 则$ NS(i+l-1)<\alpha_{0} $, 将前一个数据$ (x_{i+l-2}, y_{i+l-2}) $作为窗口的第一个数据, 对窗口内包含的数据$ (x_{i+l-2}, y_{i+l-2}), (x_{i+l-1}, y_{i+l-1}) $, $ \cdots $, $ (x_{i+2l-3}, y_{i+2l-3}) $, 计算$ NS(i+l-2) $, 若$ NS(i+l-2)\ge \alpha_{0} $, 则假设成立, $ i+l-1 $为变点位置; 若$ NS(i+l-2)<\alpha_{0} $, 则假设不成立, 即$ i+l-1 $不是变点位置, 继续采用上述方法对位置$ i+l-2 $进行判别, 依次判别, 直至检索完该窗口内的所有数据为止;

(2) 若$ i = L-l+1 $, 用反证法, 假设$ i+1 $为变点位置, 则$ NS(i+1)<\alpha_{0} $, 将数据$ (x_{i+1}, y_{i+1}) $作为窗口内的最后一个数据, 对窗口内包含的数据$ (x_{i-l+2}, y_{i-l+2}) $, $ (x_{i-l+3}, y_{i-l+3}), \cdots, (x_{i+1}, $$ y_{i+1}) $, 计算$ NS(i-l+2) $, 若$ NS(i-l+2)\ge \alpha_{0} $, 则假设成立, $ i+1 $为变点位置; 若$ NS(i-l+2)<\alpha_{0} $, 则假设不成立, 即$ i+1 $不是变点位置, 继续采用上述方法对位置$ i+2 $进行判别, 依次判别, 直至检索完该窗口内的所有数据为止;

(3) 若$ 1<i<L-l+1 $, 则变点位置为$ i+l-1 $.

4 方法具体实施与结果分析

本节构造一系列二分段变点模型, 利用抽样数据来检验本文方法的有效性.

4.1 确定最优的滑动窗口长度

实验1   本实验以分段线性回归模型为例, 为了使变点在窗口的任何位置时都能被检测到, 以保证判断变点存在的可能窗口时, 不会出现错判、漏判等现象, 所以按照3.1中的实验步骤, 通过比较不同窗口长度下, 计算变点变化在不同位置时的非平稳性度量值, 根据判断变点存在的正确率是否大于阈值$ \alpha_{l} $, 来确定已知参数情况下模型对应的最优窗口长度.

取三组不同的参数构造三个不同的分段线性模型, 模型一: $ \alpha_{1} = 3, \beta_{1} = 4 $, $ \alpha_{2} = 3.001, $$ \beta_{2} = 4.001 $; 模型二: $ \alpha_{1} = 1, \beta_{1} = 1 $, $ \alpha_{2} = 1, $$ \beta_{2} = 1.04 $; 模型三: $ \alpha_{1} = 0.01, \beta_{1} = 0.1 $, $ \alpha_{2} = 0.01, \beta_{2} = 0.14 $.

对三个分段线性模型分别进行样本规模为$ l $的随机抽样, 样本组成为: 其中$ l_{1}(0<l_{1}<l) $个来源于各自分段线性模型中参数$ (\alpha_{1}, \beta_{1}) $对应的第一段线性模型, 后$ l-l_{1} $个样本来源于$ (\alpha_{2}, \beta_{2}) $对应的第二段线性模型. 不失一般性, 三个模型的样本均记为$ \{x_{k}, y_{k}\}_{k = 1}^{l} $.

$ l $依次取值为20, 30, 40, 50, 60, 70, 自变量$ x $取值为$ x_{k} = 0.01+0.01(k-1)(k = 1, \cdots, l) $. 设置阈值$ \alpha_{0} = 0.9, \alpha_{l} = 0.95 $, 随机误差$ \varepsilon_{i}\sim N(0, 10^{-5}) $, 重复实验50次, 并且记录每一轮得到的最优窗口长度, 取它们的平均值为相应二分段模型的最优窗口长度.

实验所得结果见图 1图 2, 其中图 1是不同窗口下变点变化在窗口内的不同位置时的非平稳性度量值, 图 2是不同窗口下判断变点存在的正确率大小.

图 1

图 1   不同窗口下变点在不同位置的NS值


图 2

图 2   不同窗口长度的正确率


从实验结果可以看出

(1) 上述三个模型的最优窗口长度为$ l = 60 $. 根据图 1(a)可知, 当窗口长度$ l = 20 $时, 三个模型均只有3个变点位置判断正确, NS值均大于阈值0.9, 结合图 2判断变点在窗口内存在的正确率为16$ \%<\alpha_{l} $, 故不是最优的滑动窗口长度; 结合图 1(b)$ \sim $图 1(d)可知, 当窗口长度分别为$ l = 30, 40, 50 $, 变点变化在该窗口内的任何位置时, 能够检测到变点在该窗口内存在的正确率均小于阈值$ \alpha_{l} $, 均不能作为最优滑动窗口长度; 而当窗口长度$ l = 60 $时, 模型一只有1个变点位置不能被检测到, 其它变点位置均被正确检测到, 结合图 2正确率为98$ \%>\alpha_{l} $, 模型二和模型三只有3个变点位置不能被检测到, 判断变点在窗口内存在的正确率为95$ \% \ge \alpha_{l} $, 并且当窗口长度$ l = 70 $时, 三个模型中能够检测到变点在该窗口内存在的正确率均为100$ \% $, 故最优滑动窗口长度为$ l = 60 $.

(2) 由图 2可知, 随着窗口长度的增大, 非平稳性度量指标NS对变点的检测能力也显著提高.

(3) 数据不均衡性对NS指标有显著影响. 如图 1, 当来源于两个模型的数据占比小于0.2或大于0.8时, 非平稳性度量值大于阈值0.9, 变点的存在性更容易被检测到, 当数据占比介于0.4到0.6之间时, 非平稳性度量值小于阈值0.9, 随着窗口长度的增大, 数据占比失衡对非平稳性度量指标的影响逐步减小, 如图 1(e)图 1(f).

实验2   由于实验一获得的最优滑动窗口长度依赖于参数给定下的具体模型, 但在实际实验操作中, 事先是不知道相关参数的, 为了得到一般二分段线性模型的最优滑动窗口值, 设计180组二分段线性模型, 求得它们各自的最优滑动窗口长度, 从而给出了一般二分段线性模型最优滑动窗口的参考区间.

给定阈值0.04, 设置参数间的距离为$ |\alpha_{1}-\alpha_{2}|+|\beta_{1}-\beta_{2}| \le 0.04 $, 其中固定参数$ \alpha_{1} = 0.01, $$ \alpha_{2} = 0.01, \beta_{1} = 0.1 $, $ \beta_{2} $从0.1开始以步长0.001逐步增加, 使得参数间的距离从0.001开始一直以步长0.001增加到0.04, 并在不同噪声方差下, 构造了180组分段线性模型.

实验结果

从实验结果可以看出

(1) 图 3给出了180组分段线性模型的最优滑动窗口长度的分布值, 从图中可以看到模型的最优窗口的值分布在区间$ [60, 80] $中, 故可以认为区间$ [60, 80] $为一般分段线性模型最优窗口的参考区间, 并且大多数模型的最优窗口长度在$ l = 60 $$ l = 70 $重合, 故以选取最短滑动窗口长度为准则, 在之后的实验中均以$ l = 60 $为最优的滑动窗口长度.

图 3

图 3   不同模型的最优滑动窗口长度


(2) 对二分段线性变点模型, 无论参数之间差异有多大, 对应的最优窗口大小值基本在60左右. 在实际问题中, 虽不知模型参数具体的取值, 则可以把最优窗口值定为60.

4.2 方法的有效性

实验3   为了证明该方法的有效性, 设置变点处在线性回归模型、多元线性回归模型和非线性回归模型三类模型的不同位置, 分别构造如下分段模型, 按照3.2中的实验步骤, 进行模拟实验, 通过准确检测到变点位置的正确率来反映方法的有效性.

$ \begin{equation} Y_{i} = (\alpha_{1}+\beta_{1} x_{i}+\varepsilon_{i})\cdot {\bf 1}_{0<i\le t_{0}}+(\alpha_{2}+\beta_{2} x_{i}+\varepsilon_{i})\cdot {\bf 1}_{t_{0}<i\le T}. \end{equation} $

分别取三组不同的参数构造三个不同的分段线性模型, 模型一: $ \alpha_{1} = 3, \beta_{1} = 4 $, $ \alpha_{2} = 3.001, $$ \beta_{2} = 4.03 $; 模型二: $ \alpha_{1} = 1, \beta_{1} = 1 $, $ \alpha_{2} = 1, $$ \beta_{2} = 1.04 $; 模型三: $ \alpha_{1} = 0.01, \beta_{1} = 0.1 $, $ \alpha_{2} = 0.01, \beta_{2} = 0.14 $.

$ \begin{equation} Y_{i} = (a_{1}x_{i}+b_{1}z_{i}+\varepsilon_{i})\cdot {\bf 1}_{0<i\le t_{0}}+(a_{2}x_{i}+b_{2}z_{i}+\varepsilon_{i})\cdot {\bf 1}_{t_{0}<i\le T}. \end{equation} $

分别取三组不同的参数构造三个不同的分段多元线性模型, 模型四: $ a_{1} = 0.1, b_{1} = 1 $, $ a_{2} = 0.14, b_{2} = 1 $; 模型五: $ a_{1} = 0.1, b_{1} = 0.01 $, $ a_{2} = 0.1, b_{2} = 0.04 $; 模型六: $ a_{1} = 1, b_{1} = 2 $, $ a_{2} = 1.03, b_{2} = 2.001 $.

$ \begin{equation} Y_{i} = (m_{1}e^{p_{1}x_{i}}+\varepsilon_{i})\cdot {\bf 1}_{0<i\le t_{0}}+(m_{2}e^{p_{2}x_{i}}+\varepsilon_{i})\cdot {\bf 1}_{t_{0}<i\le T}. \end{equation} $

分别取三组不同的参数构造三个不同的分段指数模型, 模型七: $ m_{1} = 0.1, p_{1} = 2 $, $ m_{2} = 0.1, $$ p_{2} = 2.07 $; 模型八: $ m_{1} = 0.1, p_{1} = 2 $, $ m_{2} = 0.101, $$ p_{2} = 2 $; 模型九: $ m_{1} = 0.01, p_{1} = 2 $, $ m_{2} = 0.011, p_{2} = 2 $.

对三类分段模型分别进行样本规模为$ L = 200 $的随机抽样, 样本组成为: 其中$ l_{1}(0<l_{1}<L) $个来源于各自分段模型中参数$ (\alpha_{1}, \beta_{1}) $$ (a_{1}, b_{1}) $$ (m_{1}, p_{1}) $对应的第一段模型, 后$ L-l_{1} $个样本来源于$ (\alpha_{2}, \beta_{2}) $$ (a_{2}, b_{2}) $$ (m_{2}, p_{2}) $对应的第二段模型. 并且为了反映方法在样本无变点时不会出现错判的情况, 给出了全部200个样本来自同一模型的情况.

设置变点位置$ l_{1}+1 = 11, 41, 101, 161, 191 $, 针对模型(4.1)、(4.3)自变量$ x $取值为$ x_{k} = 0.01+0.01(k-1)(k = 1, \cdots, L) $, 随机误差分别为$ \varepsilon_{i}\sim N(0, 10^{-4}) $$ \varepsilon_{i}\sim N(0, 10^{-5}) $, 针对模型(4.2)自变量$ x $取值为$ x_{k} = 1.01+0.01(k-1)(k = 1, \cdots, L) $$ z $取值为$ z_{k} = 3.01+0.01(k-1)(k = 1, \cdots, L) $, 随机误差$ \varepsilon_{i}\sim N(0, 10^{-3}) $, 设置阈值$ \alpha_{0} = 0.9 $, 最优窗口长度为$ l = 60 $, 重复实验200次, 记录在200次实验里的正确率.

实验所得结果见表 1.11.3, 表 1.11.3是变点处在模型不同位置时, 方法能够准确检验到变点位置的正确率大小.

表 1.1   一元线性模型不同变点位置的检验能力

变点位置$l_{1}+1$无变点1141101161191
模型一10095.596989999
模型二10096.597999899
模型三10095.59797.597.599

新窗口打开| 下载CSV


表 1.2   多元线性模型不同变点位置的检验能力

变点位置$l_{1}+1$无变点1141101161191
模型四10094.598.596.598.599
模型五1009594.595.599.599
模型六10094.597.5989798.5

新窗口打开| 下载CSV


表 1.3   非线性模型不同变点位置的检验能力

变点位置$l_{1}+1$无变点1141101161191
模型七100909395.59695.5
模型八10096929496.596.5
模型九10092.5949295.598

新窗口打开| 下载CSV


表 1.11.3可知, 综合三类分段模型来看, 在样本无变点时, 正确率达到$ 100\% $, 没有出现误判的情况, 并且当变点处于模型的不同位置时, 一元线性模型和多元线性模型中能够准确判断变点位置的正确率均高于$ 94\% $, 非线性模型中能够准确判断变点位置的正确率均高于$ 90\% $, 对变点的位置基本都能准确检测到, 检测效果较好.

4.3 基于准确率的参数变化距离对噪声方差的敏感性分析

实验4   本实验以分段线性回归模型为例, 由于本文主要研究的是参数的弱变化导致的模型结构变点, 为了研究在怎样弱的参数变化里, 本文所用的方法均可以检测到变点位置, 所以在保证判断变点准确位置的正确率均高于95% 的前提下, 给出了噪声方差和可调节的最短的参数距离之间的关系. 其中$ \beta_{2} $每增加或减少一次, 均重复200次实验, 记录在200次实验里的正确率, 从而给出了不同噪声方差下, 可以调节的最短的参数距离的关系图.

对模型(4.1)取参数$ \alpha_{1} = 0.001 $, $ \alpha_{2} = 0.001 $, 固定参数$ \beta_{1} $分别为0.1和1时, $ \beta_{2} $按步长0.001逐步增加和减少.

对分段线性模型分别进行样本规模为$ L = 200 $的随机抽样, 样本组成为: 其中$ l_{1} $$ (0<l_{1}<L) $个来源于各自分段线性模型中参数$ (\alpha_{1}, \beta_{1}) $对应的第一段线性模型, 后$ L-l_{1} $个样本来源于$ (\alpha_{2}, \beta_{2}) $对应的第二段线性模型. 不失一般性, 样本均记为$ \{(x_{k}, y_{k})\}_{k = 1}^{L} $.

设置变点位置为$ l_{1}+1 = 11 $, 自变量$ x $取值为$ x_{k} = 0.01+0.01(k-1)(k = 1, \cdots, L) $, 设置阈值$ \alpha_{0} = 0.9 $.

实验所得结果见图 4, 图 4为不同噪声方差下, 可以调节的最短参数距离.

图 4

图 4   不同方差


图 4中点线表示可以准确检验到变点的最短的参数距离, 线以上表示参数间的距离大于最短距离, 方法可以准确有效的检验到变点位置; 线以下表示参数间的距离小于最短距离, 方法无法准确有效的检验到变点位置. 设置参数$ \alpha_{1} = \alpha_{2} = 0.001 $, $ \beta_{1} = 0.1 $$ \beta_{1} = 1 $虽然相差10倍, 但是由图 4可知, 同一噪声方差下, 它们可以准确检验到变点的最短的参数距离是几乎相同的, 由此可知, 对于分段线性模型而言, 无论参数如何变化, 准确检验到变点的最短的参数距离都是一样的.

5 与其它方法的比较

实验5   为对比验证本文方法的准确性, 选择了三种经典的变点检测方法ICCS法(迭代累积平方和算法)[2]、Mann-Kendall法[3]、Pettitt法[4]以及常用的分段线性模型变点检测方法Bayes方法[21]和非线性模型的变点检测方法LAD[23]估计, 对它们的变点检测能力进行比较, 观察各个算法对变点位置的估计效果.

对模型(4.1)、(4.2)和(4.3)分别取三组不同的参数构造三类不同的分段模型.

一元线性模型: 模型一: $ \alpha_{1} = 3, \beta_{1} = 4 $, $ \alpha_{2} = 3.001, \beta_{2} = 4.03 $; 模型二: $ \alpha_{1} = 1, \beta_{1} = 1 $, $ \alpha_{2} = 1, \beta_{2} = 1.04 $; 模型三: $ \alpha_{1} = 0.01, \beta_{1} = 0.1 $, $ \alpha_{2} = 0.01, \beta_{2} = 0.14 $;

二元线性模型: 模型一: $ a_{1} = 1, b_{1} = 2 $, $ a_{2} = 1, b_{2} = 2.01 $; 模型二: $ a_{1} = 1, b_{1} = 0.1 $, $ a_{2} = 1, b_{2} = 0.11 $; 模型三: $ a_{1} = 0.1, b_{1} = 1 $, $ a_{2} = 0.11, b_{2} = 1.001 $;

非线性模型: 模型一: $ m_{1} = 0.1, p_{1} = 2 $, $ m_{2} = 0.1, p_{2} = 2.07 $; 模型二: $ m_{1} = 0.1, p_{1} = 2 $, $ m_{2} = 0.101, p_{2} = 2 $; 模型三: $ m_{1} = 0.01, p_{1} = 2 $, $ m_{2} = 0.011, p_{2} = 2 $.

对三类分段模型分别进行样本规模为$ L = 200 $的随机抽样, 其中$ l_{1}(0<l_{1}<L) $个来源于各自分段模型中参数$ (\alpha_{1}, \beta_{1}) $$ (a_{1}, b_{1}) $$ (m_{1}, p_{1}) $对应的第一段模型, 后$ L-l_{1} $个样本来源于$ (\alpha_{2}, \beta_{2}) $$ (a_{2}, b_{2}) $$ (m_{2}, p_{2}) $对应的第二段模型.

设置变点位置$ l_{1}+1 = 81, 31, 181 $, 针对模型(4.1)、(4.3)自变量$ x $取值为$ x_{k} = 0.01+0.01(k-1) $$ (k = 1, \cdots, L) $, 随机误差分别为$ \varepsilon_{i}\sim N(0, 10^{-4}) $$ \varepsilon_{i}\sim N(0, 10^{-5}) $, 针对模型(4.2)自变量$ x $取值为$ x_{k} = 1.01+0.01(k-1) $$ (k = 1, \cdots, L) $$ z $取值为$ z_{k} = 3.01+0.01(k-1) $$ (k = 1, \cdots, L) $, 随机误差$ \varepsilon_{i}\sim N(0, 10^{-3}) $, 设置阈值$ \alpha_{0} = 0.9 $, 最优窗口长度为$ l = 60 $.

实验所得结果见图 5, 图 5是比较不同算法对不同模型变点的检验能力.

图 (5a)

图 (5a)   一元线性


图 (5b)

图 (5b)   多元线性


图 (5c)

图 (5c)   非线性


图 5(a)图 5(b)图 5(c)可知, 本文方法能准确检测到三类分段模型中变点的位置, Pettitt法检测到的变点与真实变点之间存在较大的误差, 而Mann-Kendall法未检测到变点, ICCS(迭代累积平方和算法)则存在严重的变点数目高估问题, 将一些本不是变点的点作为变点, Bayes方法对于分段一元线性模型中处于序列尾部的变点可以准确检测到, 但对于序列中部和前部的变点位置, 估计存在偏差, 并且对于分段多元线性模型和非线性模型的变点位置估计均不准确, LAD法虽然也能够准确检测到三类分段模型中变点的位置, 但根据表 2可以看出LAD方法所耗费的时间成本远高于本文提出的方法, 通过上述典型算法对三类模型变点位置的估计情况, 明确了该方法的优良性和准确性.

表 2   运行时间比较(s)

方法LADNS
变点位置31811813181181
一元线性79.25677.19677.8901.1780.7020.970
多元线性74.17276.54374.3060.6840.4891.015
非线性133.999111.789141.53423.93316.69019.350

新窗口打开| 下载CSV


6 总结与展望

时间序列作为一种典型的数据类别, 已广泛存在于各种实际应用场景中. 其中, 变点检测作为时间序列数据分析的重要研究方向之一, 在经济、气象、水文等实际应用中发挥着重要作用. 然而在目前针对回归模型变点检测方法的研究上, 还存在着对模型依赖性强、准确率不高、计算迭代时间成本高等不足. 本文基于非平稳性度量指标(NS), 利用抽样数据流进行参数估计后所得残差序列的平稳性大小, 反映了抽样数据流中是否存在变点, 通过选定合适的窗口大小并移动窗口, 比较不同窗口内数据流的NS值判断变点的精确位置, 以此构造了针对回归模型参数变化的变点检测方法, 该方法完全不需要知道序列的分布信息, 模型依赖性较弱, 比较实验的结果也表明了该方法在线性回归模型和非线性回归模型中都具有较高的准确率, 并且时间成本远低于其他方法. 在模拟实验过程中当自变量出现重叠区间的情况时, 该方法的检测效果会下降, 将在后续的工作中继续探讨更能处理此种情形的方法, 并且希望能够把该方法推广到自回归模型或其它模型的变点检测问题中.

参考文献

Page E S .

Continuous inspection schemes

Biometrika, 1954, 41 (1/2): 100- 115

DOI:10.2307/2333009      [本文引用: 2]

Inclán C , Tiao G C .

Use of cumulative sums of squares for retrospective detection of changes of variance

Journal of the American Statistical Association, 1994, 89 (427): 913- 923

URL     [本文引用: 1]

Goossens C , Berger A .

Annual and seasonal climatic variations over the northern hemisphere and Europe during the last century

Annales Geophysicae, 1986, 4 (4): 385- 400

[本文引用: 1]

Pettitt A N .

A nonparametric approach to the change-point problem

Journal of the Royal Statistical Society: Series C (Applied Statistics), 1979, 28 (2): 126- 135

URL     [本文引用: 1]

谭常春, 陈思, 缪柏其.

跳-斜度变点估计的强收敛速度

中国科学技术大学学报, 2011, 41 (9): 773- 777

DOI:10.3969/j.issn.0253-2778.2011.09.004      [本文引用: 1]

Tan C C , Chen S , Miao B Q .

The strong convergence rate of jump-slope change point estimation

Journal of University of Science and Technology of China, 2011, 41 (9): 773- 777

DOI:10.3969/j.issn.0253-2778.2011.09.004      [本文引用: 1]

谭智平, 缪柏其.

关于分布变点问题的非参数统计推断

中国科学技术大学学报, 2000, 3, 21- 28

URL     [本文引用: 1]

Tan Z P , Miao B Q .

Nonparametric statistical inference on the distribution change point

Journal of University of Science and Technology of China, 2000, 3, 21- 28

URL     [本文引用: 1]

Oh H , Lee S .

On score vector-and residual-based CUSUM tests in ARMA-GARCH models

Statistical Methods & Applications, 2018, 27 (3): 385- 406

[本文引用: 1]

叶五一, 缪柏其, 谭常春.

基于分位点回归模型变点检测的金融传染分析

数量经济技术经济研究, 2007, 24 (10): 151- 160

DOI:10.3969/j.issn.1000-3894.2007.10.015      [本文引用: 1]

Ye W Y , Miao B Q , Tan C C .

Analysis of financial contagion based on change point detection of quantile regression model

Quantitative and Technical Economic Research, 2007, 24 (10): 151- 160

DOI:10.3969/j.issn.1000-3894.2007.10.015      [本文引用: 1]

叶五一, 缪柏其.

基于Copula变点检测的美国次级债金融危机传染分析

中国管理科学, 2009, 17 (3): 1- 7

DOI:10.3321/j.issn:1003-207X.2009.03.001     

Ye W Y , Miao B Q .

Analysis of the contagion of U.S. subprime debt financial crisis based on copula change coint detection

Chinese Management Science, 2009, 17 (3): 1- 7

DOI:10.3321/j.issn:1003-207X.2009.03.001     

Lattanzi C , Leonelli M .

A change point approach for the identification of financial extreme regimes

Statistics, 2019, 19 (1): 1- 34

URL     [本文引用: 1]

Perreault L , Bernier J , Bobée B , et al.

Bayesian change-point analysis in hydrometeorological time series. Part 1:The normal model revisited

Journal of Hydrology, 2000, 235 (3-4): 221- 241

DOI:10.1016/S0022-1694(00)00270-5      [本文引用: 1]

Chen S , Li Y , Kim J , et al.

Bayesian change point analysis for extreme daily precipitation

International Journal of Climatology, 2017, 37 (7): 3123- 3137

DOI:10.1002/joc.4904      [本文引用: 1]

Hu J .

Cancer outlier detection based on likelihood ratio test

Bioinformatics, 2008, 24 (19): 2193- 2199

DOI:10.1093/bioinformatics/btn372      [本文引用: 1]

Wu D , Faria A V , Younes L , et al.

Mapping the order and pattern of brain structural MRI changes using change-point analysis in premanifest Huntington's disease

Human Brain Mapping, 2017, 38 (10): 5035- 5050

DOI:10.1002/hbm.23713      [本文引用: 1]

Quandt , Richard E .

The estimation of the parameters of a linear regression system obeying two separate regimes

Journal of the American Statistical Association, 1958, 53 (284): 873- 880

DOI:10.1080/01621459.1958.10501484      [本文引用: 1]

Quandt , Richard E .

Tests of the hypothesis that a linear regression system obeys two separate regimes

Journal of the American Statistical Association, 1960, 55 (290): 324- 330

DOI:10.1080/01621459.1960.10482067      [本文引用: 1]

Liu Zhihua , Qian Lianfen .

Changepoint estimation in a segmented linear regression via empirical likelihood

Communications in Statistics-Simulation and Computation, 2010, 39 (1): 85- 100

URL    

Lee S , Seo M H , Shin Y .

Testing for threshold effects in regression models

Journal of the American Statistical Association, 2011, 106 (493): 220- 231

DOI:10.1198/jasa.2011.tm09800      [本文引用: 1]

Bai J .

Estimation of a change point in multiple regression models

Review of Economics and Statistics, 1997, 79 (4): 551- 563

DOI:10.1162/003465397557132      [本文引用: 1]

蒋家坤, 林华珍, 蒋靓, .

门槛回归模型中门槛值和回归参数的估计

中国科学: 数学, 2016, 46 (4): 41- 54

URL     [本文引用: 1]

Jiang J K , Lin H Z , Jiang L , et al.

Estimation of threshold and regression parameters in threshold regression model

Science in China: Mathematics, 2016, 46 (4): 41- 54

URL     [本文引用: 1]

Tang Y C , Wang P P , Chen H .

Bayesian analysis for change-point linear regression models

Chinese Journal of Applied Probability and Statistics, 2015, 31 (1): 89- 102

URL     [本文引用: 2]

Ciuperca G .

The M-estimation in a multi-phase random nonlinear model

Stats & Probability Letters, 2009, 79 (5): 573- 580

URL     [本文引用: 1]

Ciuperca G .

Estimating nonlinear regression with and without change-points by the LAD method

Annals of the Institute of Statal Mathematics, 2011, 63 (4): 717- 743

[本文引用: 2]

Boldea O , Hall A R .

Estimation and inference in unstable nonlinear least squares models

Journal of Econometrics, 2013, 172 (1): 158- 167

[本文引用: 1]

谭秋衡. 时间序列的非平稳性度量及其应用[D]. 北京: 中国科学院研究生院, 2013

[本文引用: 2]

Tan Q H. Non-Stationary Measurement of Time Series and Its Application[D]. Beijing: Graduate School of Chinese Academy of Sciences, 2013

[本文引用: 2]

谭秋衡, 丁义明.

基于非平稳性度量的彩票数据实证分析

数学物理学报, 2014, 34 (1): 207- 216

URL    

Tan Q H , Ding Y M .

Empirical analysis of lottery data based on non-stationarity measure

Acta Math Sci, 2014, 34 (1): 207- 216

URL    

谭秋衡, 吴量, 李波.

基于EMD及非平稳性度量的趋势噪声分解方法

数学物理学报, 2016, 36 (4): 783- 794

URL     [本文引用: 1]

Tan Q H , Wu L , Li B .

Decomposition of noise and trend based on EMD and non-stationarity measure

Acta Math Sci, 2016, 36 (4): 783- 794

URL     [本文引用: 1]

/