回归模型参数的变点检测方法研究

图 1 不同窗口下变点在不同位置的NS值

图 2

图 2 不同窗口长度的正确率

从实验结果可以看出

(1) 上述三个模型的最优窗口长度为 $l = 60$ . 根据图 1(a)可知, 当窗口长度 $l = 20$ 时, 三个模型均只有3个变点位置判断正确, NS值均大于阈值0.9, 结合图 2判断变点在窗口内存在的正确率为16 $\%<\alpha_{l}$ , 故不是最优的滑动窗口长度; 结合图 1(b) $\sim$ 图 1(d)可知, 当窗口长度分别为 $l = 30, 40, 50$ , 变点变化在该窗口内的任何位置时, 能够检测到变点在该窗口内存在的正确率均小于阈值 $\alpha_{l}$ , 均不能作为最优滑动窗口长度; 而当窗口长度 $l = 60$ 时, 模型一只有1个变点位置不能被检测到, 其它变点位置均被正确检测到, 结合图 2正确率为98 $\%>\alpha_{l}$ , 模型二和模型三只有3个变点位置不能被检测到, 判断变点在窗口内存在的正确率为95 $\% \ge \alpha_{l}$ , 并且当窗口长度 $l = 70$ 时, 三个模型中能够检测到变点在该窗口内存在的正确率均为100 $\%$ , 故最优滑动窗口长度为 $l = 60$ .

(2) 由图 2可知, 随着窗口长度的增大, 非平稳性度量指标NS对变点的检测能力也显著提高.

(3) 数据不均衡性对NS指标有显著影响. 如图 1, 当来源于两个模型的数据占比小于0.2或大于0.8时, 非平稳性度量值大于阈值0.9, 变点的存在性更容易被检测到, 当数据占比介于0.4到0.6之间时, 非平稳性度量值小于阈值0.9, 随着窗口长度的增大, 数据占比失衡对非平稳性度量指标的影响逐步减小, 如图 1(e)、图 1(f).

实验2 由于实验一获得的最优滑动窗口长度依赖于参数给定下的具体模型, 但在实际实验操作中, 事先是不知道相关参数的, 为了得到一般二分段线性模型的最优滑动窗口值, 设计180组二分段线性模型, 求得它们各自的最优滑动窗口长度, 从而给出了一般二分段线性模型最优滑动窗口的参考区间.

给定阈值0.04, 设置参数间的距离为 $|\alpha_{1}-\alpha_{2}|+|\beta_{1}-\beta_{2}| \le 0.04$ , 其中固定参数 $\alpha_{1} = 0.01,$ $\alpha_{2} = 0.01, \beta_{1} = 0.1$ , $\beta_{2}$ 从0.1开始以步长0.001逐步增加, 使得参数间的距离从0.001开始一直以步长0.001增加到0.04, 并在不同噪声方差下, 构造了180组分段线性模型.

实验结果

从实验结果可以看出

(1) 图 3给出了180组分段线性模型的最优滑动窗口长度的分布值, 从图中可以看到模型的最优窗口的值分布在区间 $[60, 80]$ 中, 故可以认为区间 $[60, 80]$ 为一般分段线性模型最优窗口的参考区间, 并且大多数模型的最优窗口长度在 $l = 60$ 和 $l = 70$ 重合, 故以选取最短滑动窗口长度为准则, 在之后的实验中均以 $l = 60$ 为最优的滑动窗口长度.

图 3

图 3 不同模型的最优滑动窗口长度

(2) 对二分段线性变点模型, 无论参数之间差异有多大, 对应的最优窗口大小值基本在60左右. 在实际问题中, 虽不知模型参数具体的取值, 则可以把最优窗口值定为60.

4.2 方法的有效性

实验3 为了证明该方法的有效性, 设置变点处在线性回归模型、多元线性回归模型和非线性回归模型三类模型的不同位置, 分别构造如下分段模型, 按照3.2中的实验步骤, 进行模拟实验, 通过准确检测到变点位置的正确率来反映方法的有效性.

$\begin{equation} Y_{i} = (\alpha_{1}+\beta_{1} x_{i}+\varepsilon_{i})\cdot {\bf 1}_{0<i\le t_{0}}+(\alpha_{2}+\beta_{2} x_{i}+\varepsilon_{i})\cdot {\bf 1}_{t_{0}<i\le T}. \end{equation}$

(4.1)

分别取三组不同的参数构造三个不同的分段线性模型, 模型一: $\alpha_{1} = 3, \beta_{1} = 4$ , $\alpha_{2} = 3.001,$ $\beta_{2} = 4.03$ ; 模型二: $\alpha_{1} = 1, \beta_{1} = 1$ , $\alpha_{2} = 1,$ $\beta_{2} = 1.04$ ; 模型三: $\alpha_{1} = 0.01, \beta_{1} = 0.1$ , $\alpha_{2} = 0.01, \beta_{2} = 0.14$ .

$\begin{equation} Y_{i} = (a_{1}x_{i}+b_{1}z_{i}+\varepsilon_{i})\cdot {\bf 1}_{0<i\le t_{0}}+(a_{2}x_{i}+b_{2}z_{i}+\varepsilon_{i})\cdot {\bf 1}_{t_{0}<i\le T}. \end{equation}$

(4.2)

分别取三组不同的参数构造三个不同的分段多元线性模型, 模型四: $a_{1} = 0.1, b_{1} = 1$ , $a_{2} = 0.14, b_{2} = 1$ ; 模型五: $a_{1} = 0.1, b_{1} = 0.01$ , $a_{2} = 0.1, b_{2} = 0.04$ ; 模型六: $a_{1} = 1, b_{1} = 2$ , $a_{2} = 1.03, b_{2} = 2.001$ .

$\begin{equation} Y_{i} = (m_{1}e^{p_{1}x_{i}}+\varepsilon_{i})\cdot {\bf 1}_{0<i\le t_{0}}+(m_{2}e^{p_{2}x_{i}}+\varepsilon_{i})\cdot {\bf 1}_{t_{0}<i\le T}. \end{equation}$

(4.3)

分别取三组不同的参数构造三个不同的分段指数模型, 模型七: $m_{1} = 0.1, p_{1} = 2$ , $m_{2} = 0.1,$ $p_{2} = 2.07$ ; 模型八: $m_{1} = 0.1, p_{1} = 2$ , $m_{2} = 0.101,$ $p_{2} = 2$ ; 模型九: $m_{1} = 0.01, p_{1} = 2$ , $m_{2} = 0.011, p_{2} = 2$ .

对三类分段模型分别进行样本规模为 $L = 200$ 的随机抽样, 样本组成为: 其中 $l_{1}(0<l_{1}<L)$ 个来源于各自分段模型中参数 $(\alpha_{1}, \beta_{1})$ 、 $(a_{1}, b_{1})$ 、 $(m_{1}, p_{1})$ 对应的第一段模型, 后 $L-l_{1}$ 个样本来源于 $(\alpha_{2}, \beta_{2})$ 、 $(a_{2}, b_{2})$ 、 $(m_{2}, p_{2})$ 对应的第二段模型. 并且为了反映方法在样本无变点时不会出现错判的情况, 给出了全部200个样本来自同一模型的情况.

设置变点位置 $l_{1}+1 = 11, 41, 101, 161, 191$ , 针对模型(4.1)、(4.3)自变量 $x$ 取值为 $x_{k} = 0.01+0.01(k-1)(k = 1, \cdots, L)$ , 随机误差分别为 $\varepsilon_{i}\sim N(0, 10^{-4})$ 、 $\varepsilon_{i}\sim N(0, 10^{-5})$ , 针对模型(4.2)自变量 $x$ 取值为 $x_{k} = 1.01+0.01(k-1)(k = 1, \cdots, L)$ 、 $z$ 取值为 $z_{k} = 3.01+0.01(k-1)(k = 1, \cdots, L)$ , 随机误差 $\varepsilon_{i}\sim N(0, 10^{-3})$ , 设置阈值 $\alpha_{0} = 0.9$ , 最优窗口长度为 $l = 60$ , 重复实验200次, 记录在200次实验里的正确率.

实验所得结果见表 1.1–1.3, 表 1.1–1.3是变点处在模型不同位置时, 方法能够准确检验到变点位置的正确率大小.

表 1.1 一元线性模型不同变点位置的检验能力

变点位置 $l_{1}+1$	无变点	11	41	101	161	191
模型一	100	95.5	96	98	99	99
模型二	100	96.5	97	99	98	99
模型三	100	95.5	97	97.5	97.5	99

表 1.2 多元线性模型不同变点位置的检验能力

变点位置 $l_{1}+1$	无变点	11	41	101	161	191
模型四	100	94.5	98.5	96.5	98.5	99
模型五	100	95	94.5	95.5	99.5	99
模型六	100	94.5	97.5	98	97	98.5

表 1.3 非线性模型不同变点位置的检验能力

变点位置 $l_{1}+1$	无变点	11	41	101	161	191
模型七	100	90	93	95.5	96	95.5
模型八	100	96	92	94	96.5	96.5
模型九	100	92.5	94	92	95.5	98

由表 1.1–1.3可知, 综合三类分段模型来看, 在样本无变点时, 正确率达到 $100\%$ , 没有出现误判的情况, 并且当变点处于模型的不同位置时, 一元线性模型和多元线性模型中能够准确判断变点位置的正确率均高于 $94\%$ , 非线性模型中能够准确判断变点位置的正确率均高于 $90\%$ , 对变点的位置基本都能准确检测到, 检测效果较好.

4.3 基于准确率的参数变化距离对噪声方差的敏感性分析

实验4 本实验以分段线性回归模型为例, 由于本文主要研究的是参数的弱变化导致的模型结构变点, 为了研究在怎样弱的参数变化里, 本文所用的方法均可以检测到变点位置, 所以在保证判断变点准确位置的正确率均高于95% 的前提下, 给出了噪声方差和可调节的最短的参数距离之间的关系. 其中 $\beta_{2}$ 每增加或减少一次, 均重复200次实验, 记录在200次实验里的正确率, 从而给出了不同噪声方差下, 可以调节的最短的参数距离的关系图.

对模型(4.1)取参数 $\alpha_{1} = 0.001$ , $\alpha_{2} = 0.001$ , 固定参数 $\beta_{1}$ 分别为0.1和1时, $\beta_{2}$ 按步长0.001逐步增加和减少.

对分段线性模型分别进行样本规模为 $L = 200$ 的随机抽样, 样本组成为: 其中 $l_{1}$ $(0<l_{1}<L)$ 个来源于各自分段线性模型中参数 $(\alpha_{1}, \beta_{1})$ 对应的第一段线性模型, 后 $L-l_{1}$ 个样本来源于 $(\alpha_{2}, \beta_{2})$ 对应的第二段线性模型. 不失一般性, 样本均记为 $\{(x_{k}, y_{k})\}_{k = 1}^{L}$ .

设置变点位置为 $l_{1}+1 = 11$ , 自变量 $x$ 取值为 $x_{k} = 0.01+0.01(k-1)(k = 1, \cdots, L)$ , 设置阈值 $\alpha_{0} = 0.9$ .

实验所得结果见图 4, 图 4为不同噪声方差下, 可以调节的最短参数距离.

图 4

图 4 不同方差

图 4中点线表示可以准确检验到变点的最短的参数距离, 线以上表示参数间的距离大于最短距离, 方法可以准确有效的检验到变点位置; 线以下表示参数间的距离小于最短距离, 方法无法准确有效的检验到变点位置. 设置参数 $\alpha_{1} = \alpha_{2} = 0.001$ , $\beta_{1} = 0.1$ 和 $\beta_{1} = 1$ 虽然相差10倍, 但是由图 4可知, 同一噪声方差下, 它们可以准确检验到变点的最短的参数距离是几乎相同的, 由此可知, 对于分段线性模型而言, 无论参数如何变化, 准确检验到变点的最短的参数距离都是一样的.

5 与其它方法的比较

实验5 为对比验证本文方法的准确性, 选择了三种经典的变点检测方法ICCS法(迭代累积平方和算法)^[2]、Mann-Kendall法^[3]、Pettitt法^[4]以及常用的分段线性模型变点检测方法Bayes方法^[21]和非线性模型的变点检测方法LAD^[23]估计, 对它们的变点检测能力进行比较, 观察各个算法对变点位置的估计效果.

对模型(4.1)、(4.2)和(4.3)分别取三组不同的参数构造三类不同的分段模型.

一元线性模型: 模型一: $\alpha_{1} = 3, \beta_{1} = 4$ , $\alpha_{2} = 3.001, \beta_{2} = 4.03$ ; 模型二: $\alpha_{1} = 1, \beta_{1} = 1$ , $\alpha_{2} = 1, \beta_{2} = 1.04$ ; 模型三: $\alpha_{1} = 0.01, \beta_{1} = 0.1$ , $\alpha_{2} = 0.01, \beta_{2} = 0.14$ ;

二元线性模型: 模型一: $a_{1} = 1, b_{1} = 2$ , $a_{2} = 1, b_{2} = 2.01$ ; 模型二: $a_{1} = 1, b_{1} = 0.1$ , $a_{2} = 1, b_{2} = 0.11$ ; 模型三: $a_{1} = 0.1, b_{1} = 1$ , $a_{2} = 0.11, b_{2} = 1.001$ ;

非线性模型: 模型一: $m_{1} = 0.1, p_{1} = 2$ , $m_{2} = 0.1, p_{2} = 2.07$ ; 模型二: $m_{1} = 0.1, p_{1} = 2$ , $m_{2} = 0.101, p_{2} = 2$ ; 模型三: $m_{1} = 0.01, p_{1} = 2$ , $m_{2} = 0.011, p_{2} = 2$ .

对三类分段模型分别进行样本规模为 $L = 200$ 的随机抽样, 其中 $l_{1}(0<l_{1}<L)$ 个来源于各自分段模型中参数 $(\alpha_{1}, \beta_{1})$ 、 $(a_{1}, b_{1})$ 、 $(m_{1}, p_{1})$ 对应的第一段模型, 后 $L-l_{1}$ 个样本来源于 $(\alpha_{2}, \beta_{2})$ 、 $(a_{2}, b_{2})$ 、 $(m_{2}, p_{2})$ 对应的第二段模型.

设置变点位置 $l_{1}+1 = 81, 31, 181$ , 针对模型(4.1)、(4.3)自变量 $x$ 取值为 $x_{k} = 0.01+0.01(k-1)$ $(k = 1, \cdots, L)$ , 随机误差分别为 $\varepsilon_{i}\sim N(0, 10^{-4})$ 、 $\varepsilon_{i}\sim N(0, 10^{-5})$ , 针对模型(4.2)自变量 $x$ 取值为 $x_{k} = 1.01+0.01(k-1)$ $(k = 1, \cdots, L)$ 、 $z$ 取值为 $z_{k} = 3.01+0.01(k-1)$ $(k = 1, \cdots, L)$ , 随机误差 $\varepsilon_{i}\sim N(0, 10^{-3})$ , 设置阈值 $\alpha_{0} = 0.9$ , 最优窗口长度为 $l = 60$ .

实验所得结果见图 5, 图 5是比较不同算法对不同模型变点的检验能力.

图 (5a)

图 (5a) 一元线性

图 (5b)

图 (5b) 多元线性

图 (5c)

图 (5c) 非线性

由图 5(a)、图 5(b)、图 5(c)可知, 本文方法能准确检测到三类分段模型中变点的位置, Pettitt法检测到的变点与真实变点之间存在较大的误差, 而Mann-Kendall法未检测到变点, ICCS(迭代累积平方和算法)则存在严重的变点数目高估问题, 将一些本不是变点的点作为变点, Bayes方法对于分段一元线性模型中处于序列尾部的变点可以准确检测到, 但对于序列中部和前部的变点位置, 估计存在偏差, 并且对于分段多元线性模型和非线性模型的变点位置估计均不准确, LAD法虽然也能够准确检测到三类分段模型中变点的位置, 但根据表 2可以看出LAD方法所耗费的时间成本远高于本文提出的方法, 通过上述典型算法对三类模型变点位置的估计情况, 明确了该方法的优良性和准确性.

表 2 运行时间比较(s)

方法	LAD			NS
变点位置	31	81	181	31	81	181
一元线性	79.256	77.196	77.890	1.178	0.702	0.970
多元线性	74.172	76.543	74.306	0.684	0.489	1.015
非线性	133.999	111.789	141.534	23.933	16.690	19.350

6 总结与展望

时间序列作为一种典型的数据类别, 已广泛存在于各种实际应用场景中. 其中, 变点检测作为时间序列数据分析的重要研究方向之一, 在经济、气象、水文等实际应用中发挥着重要作用. 然而在目前针对回归模型变点检测方法的研究上, 还存在着对模型依赖性强、准确率不高、计算迭代时间成本高等不足. 本文基于非平稳性度量指标(NS), 利用抽样数据流进行参数估计后所得残差序列的平稳性大小, 反映了抽样数据流中是否存在变点, 通过选定合适的窗口大小并移动窗口, 比较不同窗口内数据流的NS值判断变点的精确位置, 以此构造了针对回归模型参数变化的变点检测方法, 该方法完全不需要知道序列的分布信息, 模型依赖性较弱, 比较实验的结果也表明了该方法在线性回归模型和非线性回归模型中都具有较高的准确率, 并且时间成本远低于其他方法. 在模拟实验过程中当自变量出现重叠区间的情况时, 该方法的检测效果会下降, 将在后续的工作中继续探讨更能处理此种情形的方法, 并且希望能够把该方法推广到自回归模型或其它模型的变点检测问题中.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

Page

E S

Continuous inspection schemes

Biometrika, 1954, 41 (1/2): 100- 115

DOI:10.2307/2333009 [本文引用: 2]

[2]

Inclán

, Tiao

G C

Use of cumulative sums of squares for retrospective detection of changes of variance

Journal of the American Statistical Association, 1994, 89 (427): 913- 923

[3]

Goossens

, Berger

Annual and seasonal climatic variations over the northern hemisphere and Europe during the last century

Annales Geophysicae, 1986, 4 (4): 385- 400

[本文引用: 1]

[4]

Pettitt

A N

A nonparametric approach to the change-point problem

Journal of the Royal Statistical Society: Series C (Applied Statistics), 1979, 28 (2): 126- 135

DOI:10.3969/j.issn.0253-2778.2011.09.004 [本文引用: 1]

[5]

谭常春, 陈思, 缪柏其.

跳-斜度变点估计的强收敛速度

中国科学技术大学学报, 2011, 41 (9): 773- 777

Tan

C C

, Chen

, Miao

B Q

The strong convergence rate of jump-slope change point estimation

Journal of University of Science and Technology of China, 2011, 41 (9): 773- 777

DOI:10.3969/j.issn.0253-2778.2011.09.004 [本文引用: 1]

[6]

谭智平, 缪柏其.

关于分布变点问题的非参数统计推断

中国科学技术大学学报, 2000, 3, 21- 28

Tan

Z P

, Miao

B Q

Nonparametric statistical inference on the distribution change point

Journal of University of Science and Technology of China, 2000, 3, 21- 28

DOI:10.3969/j.issn.1000-3894.2007.10.015 [本文引用: 1]

[7]

, Lee

On score vector-and residual-based CUSUM tests in ARMA-GARCH models

Statistical Methods & Applications, 2018, 27 (3): 385- 406

[本文引用: 1]

[8]

叶五一, 缪柏其, 谭常春.

基于分位点回归模型变点检测的金融传染分析

数量经济技术经济研究, 2007, 24 (10): 151- 160

W Y

, Miao

B Q

, Tan

C C

Analysis of financial contagion based on change point detection of quantile regression model

Quantitative and Technical Economic Research, 2007, 24 (10): 151- 160

DOI:10.3969/j.issn.1000-3894.2007.10.015 [本文引用: 1]

[9]

叶五一, 缪柏其.

基于Copula变点检测的美国次级债金融危机传染分析

中国管理科学, 2009, 17 (3): 1- 7

DOI:10.3321/j.issn:1003-207X.2009.03.001

W Y

, Miao

B Q

Analysis of the contagion of U.S. subprime debt financial crisis based on copula change coint detection

Chinese Management Science, 2009, 17 (3): 1- 7

DOI:10.3321/j.issn:1003-207X.2009.03.001

[10]

Lattanzi

, Leonelli

A change point approach for the identification of financial extreme regimes

Statistics, 2019, 19 (1): 1- 34

DOI:10.1016/S0022-1694(00)00270-5 [本文引用: 1]

[11]

Perreault

, Bernier

, Bobée

, et al.

Bayesian change-point analysis in hydrometeorological time series. Part 1:The normal model revisited

Journal of Hydrology, 2000, 235 (3-4): 221- 241

[12]

Chen

, Li

, Kim

, et al.

Bayesian change point analysis for extreme daily precipitation

International Journal of Climatology, 2017, 37 (7): 3123- 3137

DOI:10.1002/joc.4904 [本文引用: 1]

[13]

Cancer outlier detection based on likelihood ratio test

Bioinformatics, 2008, 24 (19): 2193- 2199

DOI:10.1093/bioinformatics/btn372 [本文引用: 1]

[14]

, Faria

A V

, Younes

, et al.

Mapping the order and pattern of brain structural MRI changes using change-point analysis in premanifest Huntington's disease

Human Brain Mapping, 2017, 38 (10): 5035- 5050

DOI:10.1002/hbm.23713 [本文引用: 1]

[15]

Quandt , Richard

The estimation of the parameters of a linear regression system obeying two separate regimes

Journal of the American Statistical Association, 1958, 53 (284): 873- 880

DOI:10.1080/01621459.1958.10501484 [本文引用: 1]

[16]

Quandt , Richard

Tests of the hypothesis that a linear regression system obeys two separate regimes

Journal of the American Statistical Association, 1960, 55 (290): 324- 330

DOI:10.1080/01621459.1960.10482067 [本文引用: 1]

[17]

Liu

Zhihua

, Qian

Lianfen

Changepoint estimation in a segmented linear regression via empirical likelihood

Communications in Statistics-Simulation and Computation, 2010, 39 (1): 85- 100

URL

[18]

Lee

, Seo

M H

, Shin

Testing for threshold effects in regression models

Journal of the American Statistical Association, 2011, 106 (493): 220- 231

DOI:10.1198/jasa.2011.tm09800 [本文引用: 1]

[19]

Bai

Estimation of a change point in multiple regression models

Review of Economics and Statistics, 1997, 79 (4): 551- 563

DOI:10.1162/003465397557132 [本文引用: 1]

[20]

蒋家坤, 林华珍, 蒋靓, 等.

门槛回归模型中门槛值和回归参数的估计

中国科学: 数学, 2016, 46 (4): 41- 54

Jiang

J K

, Lin

H Z

, Jiang

, et al.

Estimation of threshold and regression parameters in threshold regression model

Science in China: Mathematics, 2016, 46 (4): 41- 54

[21]

Tang

Y C

, Wang

P P

, Chen

Bayesian analysis for change-point linear regression models

Chinese Journal of Applied Probability and Statistics, 2015, 31 (1): 89- 102

URL [本文引用: 2]

[22]

Ciuperca

The M-estimation in a multi-phase random nonlinear model

Stats & Probability Letters, 2009, 79 (5): 573- 580

[23]

Ciuperca

Estimating nonlinear regression with and without change-points by the LAD method

Annals of the Institute of Statal Mathematics, 2011, 63 (4): 717- 743

[本文引用: 2]

[24]

Boldea

, Hall

A R

Estimation and inference in unstable nonlinear least squares models

Journal of Econometrics, 2013, 172 (1): 158- 167

[本文引用: 1]

[25]

谭秋衡. 时间序列的非平稳性度量及其应用[D]. 北京: 中国科学院研究生院, 2013

[本文引用: 2]

Tan Q H. Non-Stationary Measurement of Time Series and Its Application[D]. Beijing: Graduate School of Chinese Academy of Sciences, 2013

[本文引用: 2]

[26]

谭秋衡, 丁义明.

基于非平稳性度量的彩票数据实证分析

数学物理学报, 2014, 34 (1): 207- 216

URL

Tan

Q H

, Ding

Y M

Empirical analysis of lottery data based on non-stationarity measure

Acta Math Sci, 2014, 34 (1): 207- 216

URL

[27]

谭秋衡, 吴量, 李波.

基于EMD及非平稳性度量的趋势噪声分解方法

数学物理学报, 2016, 36 (4): 783- 794

Tan

Q H

, Wu

, Li

Decomposition of noise and trend based on EMD and non-stationarity measure

Acta Math Sci, 2016, 36 (4): 783- 794