数学物理学报, 2020, 40(5): 1381-1392 doi:

论文

线性回归模型参数估计方法的分辨率

张晶,, 余旌胡,

Parameter Resolution of Estimation Methods for Linear Regression Models

Zhang Jing,, Yu Jinghu,

通讯作者: 余旌胡, E-mail: yujh67@126.com

收稿日期: 2019-12-18  

Received: 2019-12-18  

作者简介 About authors

张晶,E-mail:sdsgzj@163.com , E-mail:sdsgzj@163.com

摘要

为给出算法对一般参数的区分能力,提出参数分辨率的概念.该文结合聚类思想,给出参数分辨率的定义和计算方法,并分别用最小二乘法与全最小一乘法对一元线性回归模型进行参数分辨率分析.实验结果表明两种算法均具有性质:参数分辨率的精度随信噪比的增大而增大;局部参数分辨率与整体参数分辨率保持一致;噪声的标准差与最小二乘参数分辨率满足线性关系,并利用区间估计理论给出证明.最后,对两段相似的音频信号,分别采用最小二乘法和全最小一乘法进行参数分辨率分析,实验结果表明了参数分辨率概念的合理性和有效性.参数分辨率是衡量两个相近信号能否被分开的一个标准,是评价模型及算法准确度的有效指标.

关键词: 参数分辨率 ; 最小二乘法 ; 全最小一乘法 ; 聚类 ; 区间估计

Abstract

In order to give the algorithm's ability to distinguish general parameters, this paper proposes the concept of algorithm parameter resolution. This paper combines the idea of clustering to give the definition and calculation method of parameter resolution. The least squares estimation and the total least absolute deviations estimation method are used to analyze the parameter resolution of unary linear regression model. Experimental results show that both algorithms have properties:as the SNR increases, the accuracy of the parameter resolution is higher; the local parameter resolution is consistent with the overall parameter resolution; the standard deviation of noise and parameter resolution of least squares satisfy a linear relationship which has been proved by using interval estimation theory. Finally, the least squares and the total least absolute deviations are used to estimate the parameter resolution of two similar audio signals. The experimental results illustrate the rationality and effectiveness of the definition of parameter resolution. Parameter resolution is a criterion for measuring whether two similar signals can be separated, it is also an effective indicator for evaluating the accuracy of models and algorithms.

Keywords: Parameter Resolution ; Least Squares ; Total Least Absolute Deviations ; Clustering ; Interval Estimation

PDF (660KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

张晶, 余旌胡. 线性回归模型参数估计方法的分辨率. 数学物理学报[J], 2020, 40(5): 1381-1392 doi:

Zhang Jing, Yu Jinghu. Parameter Resolution of Estimation Methods for Linear Regression Models. Acta Mathematica Scientia[J], 2020, 40(5): 1381-1392 doi:

1 引言

分辨率的概念在众多领域中有重要作用.显示分辨率是指显示器能够显示的像素数;图像分辨率指单位长度的图像中包含的像素点数;角分辨率是指两个相邻的目标信号能被雷达分辨时的最小相隔角度;时间分辨率是将连续变化过程离散化后的最小时间间隔;空间分辨率是遥感图像中能够辨别临界距离的最小极限.此外,分辨率在工程技术等领域应用广泛,如在光学中,像分辨本领被用来判断两个相邻物点的像能否被分开[1];在谱估计中,谱估计分辨率是指利用白噪声中的双正弦分辨特性评价不同谱估计方法中的分辨率[2];在雷达监测中,雷达角分辨率被用来表示雷达的指向精度,雷达波长越长,雷达角分辨率越低[3];在描述人的听觉时,分辨率被用来描述人耳能够辨识并区分声音的频率宽度[4].分辨率在其它学科领域也有广泛应用,数字信号处理中的频率分辨率是指算法将两个相近的信号谱峰分开的能力,不仅与信号处理的算法有关,而且受信号中信噪比等因素的影响[5].

上述分辨率的概念都是对特定参数而言. 2019年,鲁纳纳等[6]研究过参数分辨率的相关问题,本文在其基础上,给出了参数分辨率的完整概念和计算方法,并将参数分辨率应用于实例中.参数分辨率是指从区分一般参数的角度,给出相近信号能否被区分的一个标准,用于评价算法对相近参数(信号)的区分能力.最小二乘法与全最小一乘法是一元线性回归模型常用的参数估计方法,其理论研究完善[7],并且应用广泛[8],因此采用最小二乘法与全最小一乘法对一元线性回归模型进行参数分辨率分析,并给出参数分辨率的具体定义和计算方法.实验结果表明两种算法均具有性质:随信噪比的增大,参数分辨率的精度增高,即两个相近信号越容易被分开;对线性回归模型而言,局部参数分辨率与整体参数分辨率保持一致;线性噪声信号中噪声标准差与最小二乘参数分辨率满足线性关系,并利用区间估计理论给出了证明,该线性关系的发现为计算线性回归模型的参数分辨率提供了一种预测方式.最后,对两段相似的音频信号,分别采用最小二乘法和全最小一乘法进行参数分辨率分析,实验结果进一步说明了参数分辨率的合理性和有效性.

2 参数分辨率的引入

现有分辨率的概念均是从区分特定参数的角度出发,给出算法对相近信号(参数)的区分能力,这些概念都比较有针对性,而本文提出的是一种更加宽泛的分辨率概念:参数分辨率.参数分辨率概念的核心是从区分一般参数的角度出发,给出相近信号可以被分开的标准,用于衡量算法对相近信号的区分能力.该区分标准可以是相近信号被分开的最小间隔,也可以是相近信号不能被分开的最大间隔,本文选用前者作为区分标准.

参数分辨率的基本思想是对给定的两段相近信号,利用参数估计算法对信号中的参数进行估计,通过判断两组估计参数能否被分开,进而判断这两段相近信号能否被分开.但是判断参数能否被分开是一个比较困难的问题,因为缺乏对参数的标签,所以引入无监督学习中的聚类算法.为了给出两组参数可以被区分的标准,设置聚类准确率$ \alpha $ ($ 0<\alpha\leq1 $),当两组估计参数聚类后正确分类点(聚类前后属于同一类的点)的个数在点的总个数中的比例满足准确率$ \alpha $时,认为这两组估计参数在一定程度上能够被正确地聚成两类,即此轮实验中两组估计参数能够被分开;由于聚类算法本身的不稳定性,为了保证实验结果的稳健性,设置成功率$ \beta $ ($ 0<\beta\leq1 $),当多轮实验中达到准确率$ \alpha $的次数满足成功率$ \beta $时,认为该算法可以将两段相近信号分开.

定义2.1 (参数分辨率的一般定义) 在$ (\alpha, \beta) $意义下,参数估计算法能将模型分开时原始参数间的最小间隔$ ( $最小绝对距离或最小相对距离$ ) $为此参数估计算法对模型的参数分辨率.最小间隔越小,参数分辨率的精度越高.

准确率$ \alpha $和成功率$ \beta $是衡量相近信号是否能被区分的一个标准.随着$ \alpha $$ \beta $的增大,信号能被分开的最小间隔变大,参数分辨率减小.当$ \alpha $$ \beta $均取1时,两段相近信号可以被严格分开,但在很多实际问题中不需要如此严格的区分,准确率$ \alpha $和成功率$ \beta $接近1即可. $ \alpha $$ \beta $的引入使得相近信号的区分标准更加灵活.

参数分辨率的产生与模型参数、信噪比以及信号噪声等因素有关,因此下面将通过计算最小二乘法和全最小一乘法对一元线性回归模型的参数分辨率,说明参数分辨率的合理性、可行性和有效性.

3 准备工作

3.1 最小二乘法的相关原理

最小二乘法(LS)是提供“观测组合”的主要工具之一,它依据对某事件的大量观测而获得“最佳”成果和“最可能”表现形式.

对于一元线性回归模型$ y_i = a_0+a_1x_i+\varepsilon_i $,其中各$ \varepsilon_i $独立同分布且$ \varepsilon_i\sim N(0, \sigma^2) $.

最小二乘法的目标为估计得到的参数$ \hat{a}_0 $$ \hat{a}_1 $应满足$ Q(\hat{a}_0, \hat{a}_1) = \min\limits_{a_0, a_1} Q(a_0, a_1) $.由于$ Q\geq0 $,且对$ a_0 $$ a_1 $的导数存在,分别对$ a_0 $$ a_1 $求偏导并令其为0,得

其中

由于$ \Sigma(x_i-\bar{x}) = 0 $,于是$ \hat{a}_0 $$ \hat{a}_1 $可改写为

这就是参数$ a_0 $$ a_1 $的最小二乘估计.关于$ \hat{a}_0 $$ \hat{a}_1 $的性质有

(1)它们是独立正态变量$ y_1, y_2, \cdots, y_n $的线性组合,故都服从正态分布.对$ \hat{a}_0 $$ \hat{a}_1 $求期望和方差

所以,在线性回归模型下有

$ \begin{eqnarray} \hat{a}_0 \sim N(a_0, (\frac{1}{n}+\frac{\bar{x}^2}{l_{xx}})\sigma^2), {\qquad} \hat{a}_1 \sim N(a_1, \frac{\sigma^2}{l_{xx}}). \end{eqnarray} $

(2)它们满足Gauss-Markov定理:在线性回归模型中,如果误差满足零均值、同方差且互不相关,则回归系数的最佳线性无偏估计就是最小二乘估计.

3.2 全最小一乘法的相关原理

设样本点为

$ \begin{equation} (x_1, y_1), (x_2, y_2), \cdots, (x_n, y_n), \end{equation} $

回归直线为$ y = ax+b $,全最小一乘法(TLAD)的目标函数为

$ \begin{equation} J(a, b) = (1+{a}^2)^{-\frac{1}{2}}\sum\limits_{i = 1}^n |y_i-ax_i-b| = (1+{a}^2)^{-\frac{1}{2}}\sum\limits_{i = 1}^n |\varepsilon_i|. \end{equation} $

在准则(3.3)下,存在最优参数$ a $$ b $或者最优直线$ y = ax+b $,并且最优直线至少经过(3.2)式中的2个样本点[9, 10].

设过直线的两个样本点为$ (x_i, y_i) $$ (x_j, y_j) $,其中$ 1 \leq i < j \leq n $,那么过这两点的直线的斜率和截距为

于是直线方程为

所有样本点$ (x_k, y_k)(1\leq k\leq n) $到直线的距离和为

那么与$ \min\limits_{1\leq i < j\leq n}d_{ij} $对应的直线就是最优直线.

3.3 实验步骤

本小结以一元线性回归模型和最小二乘法为例,给出参数分辨率的计算方法和最小二乘参数分辨率的具体定义.

Step1 产生含参的噪声信号和参数的估计值

(1)产生原始信号

对于线性回归模型$ y_1 = a_0+a_1x $$ y_2 = a_0+a_2x $,选择参数$ a_0 $$ a_1 $$ a_2 $,并定义$ x $的区间,得到原始信号$ y_1 $$ y_2 $.

(2)计算噪声强度(NP)

固定信噪比SNR,利用公式$ SNR = 10\times {\rm log}_{10}[SP/NP] $,得$ NP = SP\times 10^{-{\frac{SNR}{10}}} $,其中$ SP = {\sum\limits_{i = 1}^n y_i^2}/{n} $为信号强度, $ NP $为噪声强度.

(3)产生噪声信号

首先产生一组服从标准正态分布的随机数$ \omega = (\omega_1, \omega_2, \cdots, \omega_n) $,根据方差的无偏估计$ S^2 = {\sum\limits_{i = 1}^n \omega_i^2}/{(n-1)} $,得到噪声强度$ NP = {\sum\limits_{i = 1}^n \omega_i^2}/{(n-1)} = s^2 $,即噪声序列服从正态分布$ \varepsilon\sim N(0, NP) $,也就是说噪声序列$ \varepsilon = s\times\omega = \sqrt{NP}\times\omega $.然后将产生的噪声$ \varepsilon $加入到原始信号中,得到噪声信号$ y_1 = a_0+a_1x+\varepsilon_1 $$ y_2 = a_0+a_2x+\varepsilon_2 $.

(4)检验随机数的稳健性

利用由随机数$ \omega = (\omega_1, \omega_2, \cdots, \omega_n) $产生的噪声$ \varepsilon $,得到噪声强度$ NP = {\sum\limits_{i = 1}^n \varepsilon_i^2}/{n} $,从而信噪比

比较其和原先给定的信噪比$ SNR $之间的相对误差$ \eta = \frac{|snr-SNR|}{SNR} $,若$ \eta>0.02 $,则重新产生一组随机数,直到相对误差$ \eta\leq0.02 $.

(5)产生参数的估计值

对两个噪声信号$ y_1 = a_0+a_1x+\varepsilon_1 $$ y_2 = a_0+a_2x+\varepsilon_2 $中的参数对$ (a_0, a_1) $$ (a_0, a_2) $分别做50次最小二乘估计,得到估计值$ (a^{(1)}_0, a^{(1)}_1), \cdots, (a^{(50)}_0, a^{(50)}_1) $$ (a^{(1)}_0, a^{(1)}_2), \cdots, (a^{(50)}_0, a^{(50)}_2) $各50组,共100组,数据点的分布见图 1(a).

图 1

图 1   估计参数分布图


Step2 引入聚类算法,给出两个相近信号可以被区分的标准

为了给出两组参数可以被区分的标准,引入聚类算法.由于不同聚类算法对点的判别结果不一样,因此本文比较了三种不同的聚类算法对同一组数据归类后的误判点个数, 表 1为k-means聚类[11]、模糊聚类[12]和密度峰值聚类[13]对两类数据点归类后的误判点个数.

表 1   不同聚类算法的判别结果

实验次数12345678910
k-means聚类5525355333
模糊聚类6424346322
密度峰值聚类4301002220

新窗口打开| 下载CSV


表 1可知,密度峰值聚类相较k-means聚类和模糊聚类对点的类判别较准确,即误判点的个数少于其他的聚类算法.此外,还可以使用Fisher判别准则或其它分类较准确的聚类方法.

密度峰值聚类的核心思想是对聚类中心的刻画,聚类中心应同时具有两个特点: (ⅰ)本身的密度大,即它被密度均不超过它的邻居包围; (ⅱ)与其他密度更大的数据点之间“距离”相对更大.密度峰值聚类的聚类步骤

(ⅰ)计算每个点的局部密度$ \rho_i $和距离$ \delta_i $,其中$ \rho_i $表示数据点集中与该点的距离小于$ d_c $ ($ d_c $为截断距离,需事先确定,将所有点之间的距离按升序排列后, $ d_c $取距离总个数的2$ \% $后四舍五入得到的数对应的位置的距离大小)的点的个数.当该点具有最大局部密度时, $ \delta_i $表示数据点集中与该点距离最大的点之间的距离(即最大距离);否则, $ \delta_i $表示在所有局部密度大于该点的数据点中,与该点距离最小的数据点之间的距离(即最小距离);

(ⅱ)计算一个将$ \rho $值和$ \delta $值综合考虑的量$ \gamma_i = \rho_i \delta_i $.显然, $ \gamma $值越大越可能成为聚类中心,将$ \gamma_i $按降序排列,选取具有较大$ \gamma_i $值的两个点作为聚类中心;

(ⅲ)计算其余的点到这两个聚类中心的距离,距离较小的归为一类.

图 1(a)中三角形数据点为信号$ y_1 = a_0+a_1x+\varepsilon_1 $产生的50组估计参数,圆形数据点为信号$ y_2 = a_0+a_2x+\varepsilon_2 $产生的50组估计参数,对这100组参数进行聚类,得到的聚类结果如图 1(b).聚类后某一类中大多数的点属于聚类前同一类认为是正确分类的点,那么图 1(b)中正确分类的点的个数为91.

设聚类的点的总个数为$ n $,为了给出两组参数可以被区分的标准,设置聚类准确率$ \alpha $,令$ p_n(a_1, a_2;n, \alpha)\triangleq $正确分类的点的个数/$ n $,当$ p_n\geq\alpha $时,认为这两组估计参数在一定程度上能够被正确地聚成两类,即此轮实验中两组估计参数能够被分开.由于聚类方法本身并不稳定,为了保证实验结果的稳健性,对同一组参数$ (a_1, a_2) $重复进行$ m $轮实验,并设置成功率$ \beta $,令$ q_m(a_1, a_2;m, \beta)\triangleq $$ m $轮实验中达到准确率$ \alpha $的次数/$ m $,当$ q_m\geq\beta $时,称参数估计算法能将两个相近信号分开.

定义3.1 (最小二乘参数分辨率的定义) 在$ (\alpha, \beta) $意义下,最小二乘法能将能将一元线性回归模型$ y_1 = a_0+a_1x+\varepsilon_1 $$ y_2 = a_0+a_2 x+\varepsilon_2 $中的参数$ a_1 $$ a_2 $分开时原始参数间的最小相对误差$ (RE) \min\limits_{a_1, a_2}\frac{|a_2-a_1|}{a_1} $或最小绝对误差$ (AE) \min\limits_{a_1, a_2}|a_2-a_1| $为最小二乘法对一元线性回归模型的参数分辨率.

4 实验结果与分析

对于一元线性回归模型$ y_1 = a_0+a_1x+\varepsilon_1 $$ y_2 = a_0+a_2 x+\varepsilon_2 $,设置准确率$ \alpha = 0.9 $和成功率$ \beta = 0.9 $,取$ m = 50 $, $ x $$ [0.01:0.01:1] $ (即$ x $从0.01开始按步长0.01取值直到1),那么$ n = 100 $.根据3.3中的实验步骤,得到不同信噪比或方差下基于相对误差或绝对误差的参数分辨率,并对实验结果进行分析.

4.1 基于相对误差的LS参数分辨率与参数变化的影响分析

固定参数$ a_0 = 0.09 $$ a_1 = 10 $,参数$ a_2 $从初始取值$ a_1 $开始,按步长0.001逐步增加和减小两种方式变化.按步长逐步增加时,记能将$ (a_1, a_2) $分开的$ a_2 $的第一个值为分开值1;按步长逐步减小时,记能将$ (a_1, a_2) $分开的$ a_2 $的第一个值为分开值2, 表 2中RE1和RE2分别表示分开值1和分开值2与$ a_1 $之间的相对误差.

表 2   不同聚类算法的判别结果

SNR分开值1RE1 (%)分开值2RE2 (%)$|$RE1 - RE2$|$ (%)
3010.1981.989.8071.93 0.06
4010.0640.649.9370.630.01
5010.0200.209.9800.200
6010.0070.079.9930.070
7010.0020.029.9980.020
8010.0010.019.9990.010

新窗口打开| 下载CSV


表 2的最后一列知,参数$ a_2 $从初始取值$ a_1 $开始,逐步增加或逐步减小同样的长度,达到相同的阈值时,得到的相对误差相同或相差无几,所以下面只研究了参数$ a_2 $从初始取值$ a_1 $开始,按步长0.001逐步增加时的参数分辨率.

4.2 基于相对误差的LS参数分辨率与信噪比的影响分析

固定信噪比,设置参数$ a_0 $$ a_1 $的值,得到两组不同参数下基于相对误差的参数分辨率. 图 2(a)为参数$ a_0 = 0.09 $$ a_1 = 10 $时,各个信噪比下基于相对误差的参数分辨率. 图 2(b)为参数分别为$ a_0 = 0.09 $$ a_1 = 10 $$ a_0 = 0.009 $$ a_1 = 1 $时,各个信噪比下基于相对误差的参数分辨率的对比图.

图 2

图 2   参数分辨率分布图


参数分辨率是指参数估计中,两个相近信号能被分开的最小间隔.最小间隔越小,参数分辨率的精度越高. 图 2(a)中点线表示可以区分两个相近信号时参数间的最短距离,即参数分辨率.线以下表示参数间的距离小于参数分辨率,算法不能有效地区分这两组数据,即两个相近的信号不能被区分开,此时只能把两个信号看成同一个信号.线以上表示参数间的距离大于参数分辨率,算法能够有效区分这两组数据,此时参数对信号的影响差别不能忽略,尤其是在信号分离中,需看成两个不同的信号.由图 2(a)可知,随着信噪比的增大,相对误差减小,参数分辨率的精度提高,即两个相近信号越容易被分开,这与实际情况相吻合,说明本文提出的参数分辨率概念是合理的.

参数$ a_0 = 0.009 $$ a_1 = 1 $与参数$ a_0 = 0.09 $$ a_1 = 10 $中的两个$ a_0 $都近似于0,而两个$ a_1 $虽然相差10倍,但是由图 2(b)可知,同一信噪比下两信号基于相对误差的参数分辨率几乎相同,即分辨率是点点相同的,也就是说,对线性回归模型而言,局部参数分辨率与整体参数分辨率一致.

4.3 基于绝对误差的LS参数分辨率与噪声方差的影响分析

本小节主要研究噪声方差和基于绝对误差的参数分辨率之间的关系.因两个一元线性回归模型$ y_1 = a_0+a_1x+\varepsilon_1 $$ y_2 = a_0+a_2x+\varepsilon_2 $中的噪声$ \varepsilon_1 $$ \varepsilon_2 $独立同分布,即噪声$ \varepsilon_1 $$ \varepsilon_2 $具有相同的方差,又由3.3(3)知$ \varepsilon\sim N(0, NP) $,从而两个模型具有相同的噪声强度(NP),并且分辨率产生的整个过程与信号强度(SP)和信噪比(SNR)无关. 图 3(a)为参数$ a_0 = 0 $$ a_1 = 10 $时,不同方差下基于绝对误差的参数分辨率.

图 3

图 3   参数分辨率分布图


根据图 3(a),曲线估计为幂函数方程$ y = a+b\sqrt{x} $,令$ x' = \sqrt{x} $,于是方程转化为$ y = a+bx' $, 图 3(a)转化为图 3(b).利用最小二乘法拟合直线方程$ y = a+bx' $,得到拟合参数$ a = 0.0095 $$ b = 1.0504 $,此时残差平方和$ Se = 0.0058 $,决定系数$ R^2 = 0.9992 $,说明拟合的比较准确,从而得到噪声方差和基于绝对误差的参数分辨率的表达式为

这预示线性噪声中噪声的标准差与基于绝对误差的参数分辨率满足线性关系.

定理4.1 一元线性噪声信号中噪声的标准差$ \sigma $与基于绝对误差的参数分辨率AE满足线性关系

$ \begin{eqnarray} AE = a+\frac{b}{\sqrt{l_{xx}}}\sigma, \end{eqnarray} $

其中$ a $为常数, $ b $为正常数, $ l_{xx} = \sum\limits_{i = 1}^n (x_i-\bar{x})^2 = \sum\limits_{i = 1}^n x_i^2 -\frac{1}{n}(\sum\limits_{i = 1}^n x_i)^2 $$ x $的残差平方和.

 对噪声信号$ y_1 = a_0+a_1x+\varepsilon_1 $$ y_2 = a_0+a_2x+\varepsilon_2 $中的参数$ a_1 $$ a_2 $做最小二乘估计,由$ (3.1) $式可知

图 4(a)为参数$ \hat{a}_1 $$ \hat{a}_2 $的正态分布图,图中阴影部分即为可能误分的区域,参数$ a_1 $$ a_2 $的变化会引起阴影部分面积的改变.由于参数$ \hat{a}_1 $$ \hat{a}_2 $同方差,所以阴影部分可置于一个参数的正态分布的两侧,如图 4(b),那么均值$ a_1 $$ 1-\alpha $置信区间之外的区域即为可能误分的区域.下面求均值$ a_1 $$ 1-\alpha $置信区间:

图 4

图 4   正态分布图


选取枢轴量$ u = \frac{\hat{a}_1-a_1}{\sigma/\sqrt{l_{xx}}}\sim N(0, 1) $,选择常数$ c $$ d $,使其满足

经不等式变形可得

由于标准正态分布为单峰对称的,所以在$ \Phi(d)-\Phi(c) = 1-\alpha $的条件下,当$ d = -c = u_{1-\frac{\alpha}{2}} $时, $ d-c $达到最小.由此得出$ a_1 $$ 1-\alpha $置信区间为

$ \begin{eqnarray} [\hat{a}_1-\frac{u_{1-\frac{\alpha}{2}}}{\sqrt{l_{xx}}}\sigma, \hat{a}_1+\frac{u_{1-\frac{\alpha}{2}}}{\sqrt{l_{xx}}}\sigma]. \end{eqnarray} $

$ (4.2) $式可知,置信区间的长度为$ 2\frac{u_{1-\frac{\alpha}{2}}}{\sqrt{l_{xx}}}\sigma $,记$ b' = 2u_{1-\frac{\alpha}{2}} $,其中$ u_{1-\frac{\alpha}{2}}>0 $,固定置信度$ 1-\alpha $$ x $的残差平方和$ \sqrt{l_{xx}} $,那么标准差$ \sigma $和置信区间长度满足线性关系.

由于置信区间长度与参数分辨率是同一事件的两种表现形式,即准确率为$ \alpha $的参数分辨率对应于置信度为$ 1-\alpha $的置信区间长度,所以噪声标准差与参数分辨率满足线性关系,该线性关系的发现为计算线性回归模型的参数分辨率提供了一种预测方式.

注4.1 参数分辨率的准确率和置信区间的置信度是一一对应的,固定参数分辨率的成功率$ \beta = 0.9 $并且$ x $$ [0.01:0.01:1] $,得到不同置信度下$ b' $$ (4.1) $式中斜率系数$ b $的分布曲线图.

图 5可知,理论系数$ b' $比实验系数$ b $大,是因为理论求得的是最差情况下的参数分辨率,即图 4(a)中阴影部分全为误判点,但实际上图 4(a)中阴影部分存在没有被误判的点.由图 5可知,随置信度的增大,实验系数和理论系数都增大,这说明置信度越大,相近信号能被分开时最小间隔越大,参数分辨率越小,并且实验系数和理论系数之间的差值逐渐减小,最终趋于一致.

图 5

图 5   不同置信度下系数$ b $$ b' $的分布曲线


4.4 不同算法对同一模型的参数分辨率分析

参数分辨率是衡量算法准确度的有效指标.基于绝对误差与相对误差,通过实验分析全最小一乘参数分辨率与信噪比、方差等因素的关系,可以得到与最小二乘法相似的结果.此节只列出基于相对误差的不同信噪比下的最小二乘法与全最小一乘法参数分辨率结果.

图 6可知,在高斯噪声下,最小二乘参数分辨率在所有的信噪比范围内都优于全最小一乘参数分辨率,所以相较全最小一乘法,最小二乘法对一元线性回归模型的参数估计准确度更高,这与Gauss-Markov定理是一致的,说明参数分辨率作为信号划分的评判标准是有效的.

图 6

图 6   不同算法对同一模型的参数分辨率对比


5 实例分析

不同算法对同一组信号的区分能力是有差异的.截取一段低音提琴的音频信号$ s_1 $,为了得到两段相近的信号,将信号$ s_1 $后移30个单位(即30个数据长度)并收缩0.02倍后再叠加到信号$ s_1 $上得到信号$ s_2 $. 图 7(a)是相似的音频信号$ s_1 $$ s_2 $的波形图,音频信号的数据长度为2000 (记作n),根据波形图无法判断这两段音频信号是否是同一个音频信号.由于音频信号的分布是不规则的,为了方便处理,需将其转换成线性信号,用线性信号近似地代替音频信号,具体操作:

图 7

图 7   波形图


(1)将音频信号分成$ m_1 $段,如图 7(b),每一段有$ n/m_1 $个数据;

(2)将每一段中的$ n/m_1 $个数据分成$ m_2 $份,找到其中的最大值和最小值,共$ 2m_2 $个;

(3)使用相同的模型和不同的算法拟合(2)中的$ 2m_2 $个数据,得到该段近似线性信号的参数估计值;

(4)计算每一段信号拟合后的决定系数$ R^2 $,当$ R^2\geq\xi $$ (0\leq\xi\leq1, \xi $为给定的阈值$ ) $时,表示拟合的比较好.

通过对每一段信号的线性拟合,原始信号就变成了逐段线性的信号,并且每一段原始信号由对应线性信号的斜率参数与截距参数决定.为了判断两段相近信号能否被分开,设置参数$ \nu $(为了避免提取原始信号中的噪声,给定一个分开标准$ \nu $),若存在某一段信号,使得某算法对此段信号估计得到的斜率参数间的最大绝对误差$ \delta\geq \nu $,那么表示该算法可以将两段相近的信号分开.

本例中,令$ m_1 = 20 $$ m_2 = 25 $$ \xi = 0.8 $$ \nu = 0.1 $,最小二乘法和全最小一乘法对两信号估计的斜率参数之间最大的绝对误差分别为$ \delta_1 = 0.1113> \nu $$ \delta_2 = 0.0910< \nu $,且均满足阈值$ \xi $,说明最小二乘法可以将这两段相近的信号分开,而全最小一乘法不能将这两段相近的信号分开,也就是说,不同算法对相近信号的区分能力是不一样的,参数分辨率高的算法可以分开一般算法分不开的信号,从而说明参数分辨率作为信号划分的评判标准是有效的.

6 总结

参数分辨率是对分辨率概念的自然延伸,是衡量两个相近信号能否分开的一个标准,是评价模型及算法准确度的有效指标.本文结合聚类的思想,给出参数分辨率的定义和计算方法,分别用最小二乘法与全最小一乘法对一元线性回归模型进行参数分辨率分析,从而说明参数分辨率概念的合理性、可行性和有效性.实验结果表明两种算法均具有性质:随着信噪比的增大,参数分辨率的精度增高,即相近信号越容易被分开;对线性回归模型而言,局部参数分辨率与整体参数分辨率保持一致.此外,利用区间估计理论证明了线性噪声信号中噪声标准差与最小二乘参数分辨率满足线性关系,这为计算线性回归模型的参数分辨率提供了一种预测方式.最后,对两段相似的音频信号,分别采用最小二乘法和全最小一乘法进行参数分辨率分析,实验结果进一步说明了参数分辨率的合理性和有效性.参数分辨率的提出,不仅为区分相近信号提供了新的解决方法,而且为评估模型及算法的准确度提供了新的参考依据.待研究的问题有高维最小二乘法的参数分辨率,其它模型及算法的参数分辨率等.

参考文献

郭永康. 光学教程. 成都: 四川大学出版社, 1996

[本文引用: 1]

Guo Y K . Optical Tutorial. Chengdu: Sichuan University Press, 1996

[本文引用: 1]

姚彦鑫.

低采样率高分辨率压缩功率谱估计方法的仿真研究

电波科学学报, 2016, 31 (6): 1172- 1179

URL     [本文引用: 1]

Yao Y X .

Simulation on low sampling rate high resolution compressed power spectrum estimation method

Chinese Journal of Radio Science, 2016, 31 (6): 1172- 1179

URL     [本文引用: 1]

张翼, 柯亨玉, 程丰, 李国玮.

基于MUSIC算法高频地波雷达的角分辨率

电波科学学报, 2003, 18 (3): 264- 269

URL     [本文引用: 1]

Zhang Y , Ke H Y , Cheng F , Li G W .

Angle resolution of HK ground wave radar based on MUSIC scheme

Chinese Journal of Radio Science, 2003, 18 (3): 264- 269

URL     [本文引用: 1]

Wang Q , Liang R , Rahardja S , Zhao L , Zou C , Zhao L , Vasques C .

Piecewise-linear frequency shifting algorithm for frequency resolution enhancement in digital hearing aids

Applied Sciences, 2017, 7 (4): 1- 18

[本文引用: 1]

Candan C .

Fine resolution frequency estimation from three DFT samples:case of windowed data

Signal Processing, 2015, 114, 245- 250

DOI:10.1016/j.sigpro.2015.03.009      [本文引用: 1]

鲁纳纳, 余旌胡.

EM算法的参数分辨率

数学物理学报, 2019, 39 (3): 638- 648

URL     [本文引用: 1]

Lu N N , Yu J H .

Research on resolution based on EM algorithm

Acta Mathematica Scientia, 2019, 39 (3): 638- 648

URL     [本文引用: 1]

茆诗松, 程依明, 濮晓龙. 概率论与数理统计教程. 北京: 高等教育出版社, 2013

[本文引用: 1]

Mao S S , Cheng Y M , Pu X L . Probability Theory and Mathematical Statistics Tutorial. Beijing: Higher Education Press, 2013

[本文引用: 1]

Wang P P , Yu Q , Hu Y J , Miao C X .

Online detection of broken rotor bar fault in induction motors by combining estimation of signal parameters via min-norm algorithm and square method

Chinese Journal of Mechanical Engineering, 2017, 30, 1285- 1295

DOI:10.1007/s10033-017-0185-2      [本文引用: 1]

冯守平, 杨桂元.

关于加权全最小一乘法

应用概率统计, 2009, 25 (2): 135- 142

URL     [本文引用: 1]

Feng S P , Yang G Y .

On weighted total least absolute deviations

Chinese Journal of Applied Probability and Statistics, 2009, 25 (2): 135- 142

URL     [本文引用: 1]

洪文, 吴本忠. LING4.0 for Windows最优化软件及其应用. 北京: 北京大学出版社, 2001

[本文引用: 1]

Hong W , Wu B Z . LING4.0 for Windows Optimization Software and Its Application. Beijing: Peking University Press, 2001

[本文引用: 1]

王千, 王成, 冯振元, .

K-means聚类算法研究综述

电子设计工程, 2012, 20 (7): 21- 24

URL     [本文引用: 1]

Wang Q , Wang C , Feng Z Y , et al.

Review of k-means clustering algorithm

Electronic Design Engineering, 2012, 20 (7): 21- 24

URL     [本文引用: 1]

高新波, 谢维信.

模糊聚类理论发展及应用的研究进展

科学通报, 1999, 44 (21): 2241- 2251

URL     [本文引用: 1]

Gao X B , Xie W X .

Research progress in the development and application of fuzzy clustering theory

Chinese Science Bulletin, 1999, 44 (21): 2241- 2251

URL     [本文引用: 1]

Alex R , Alessandro L .

Cluster by fast search and find of density peaks

Science, 2014, 344, 1492- 1496

DOI:10.1126/science.1242072      [本文引用: 1]

/