基于 SCAD_L$_2$ 和 SCAD 混合惩罚的高维随机效应线性回归模型

下面将根据表1给出如下模拟结果分析: 当信噪比逐渐增大时, 混合惩罚方法筛选正确变量的能力和系数估计效果均在下降; 而其排除无关变量的能力均有不同程度的变化, 当 $\sigma$ 取值为1和3时, $F2$ 均能达到较高的水平. 故当 $\sigma$ 取值为1时, 混合惩罚方法的系数估计效果和变量选择能力基本达到最佳水平.

4.3 随机效应对混合惩罚的影响

下面根据上述三个衡量指标比较不同随机效应影响下混合惩罚方法的系数估计效果和变量选择能力. 同样利用模型(4.1)产生模拟数据, 基于前述信噪比对混合惩罚方法的影响分析, 这里取 $\sigma = 1$ , 并将随机效应的协方差 $D$ 分别取为

$\begin{array}{l}{D_1} = diag(1,1,1,1,0,0,0),\\{D_2} = diag(2,2,2,2,0,0,0),\\{D_3} = diag(3,3,3,3,0,0,0),\end{array}$

这里协方差矩阵 $D_i$ 的值参考了随机效应模型研究中通常选取的数值^[11], 即依次增加了随机效应对模型(4.1)的干扰程度, 所得实验结果均为经过 100 次测试后得到的平均值, 如下所示.

表2 不同随机效应下混合惩罚方法的衡量指标结果

下面将根据表2给出如下模拟结果分析: 当随机效应增强时, 混合惩罚方法系数估计效果下降且误差受随机效应因素影响较大; 当随机效应的干扰程度较小或较大时, 混合惩罚方法的变量选择能力几乎不受影响且保持在较高水平, 故当随机效应的协方差为 $D_1$ 时, 混合惩罚方法的系数估计效果和变量选择能力基本达到最佳水平.

4.4 不同惩罚方法的效果比较

本节将在上述实验中确定的最佳信噪比和随机效应下, 从衡量指标效果和分组效应效果两方面比较该混合惩罚方法、双Lasso惩罚方法、双SCAD惩罚方法和不考虑随机效应的SCAD_L ${_2}$ 惩罚方法的性能. 下面先从衡量指标效果的角度进行分析.

4.4.1 衡量指标的效果比较

下面利用模型(4.1)产生数据, 然后分别讨论固定系数在系数模型和稠密模型两种情况下的系数估计效果和变量选择能力.

情况 1 稀疏模型取

$\beta = {(3, - 1.5,0,0,2,0,0,0)^{\rm T}};$

情况 2 稠密模型取

$\beta = {(0.85,0.85,0.85,0.85,0.85,0.85,0.85,0.85)^{\rm T}}.$

这里均选取相同的 $\sigma$ 和 $D$ , 即 $\sigma = 1$ , $D = diag(1,1,1,1,0,0,0)$ , 并令误差 ${\varepsilon _{ij}}\sim N(0,1)$ . 由数值结果得到稀疏模型情况下不同惩罚方法的效果比较表, 所得实验结果均为经过 100 次测试后得到的平均值, 见表3.

表3 稀疏模型下四种惩罚方法衡量指标结果

下面将根据表3给出如下模拟结果分析: 从衡量指标MSE的计算结果发现: 双Lasso惩罚方法 $>$ 混合惩罚方法 $>$ 双SCAD惩罚方法 $>$ SCAD_L $_2$ 惩罚方法(不考虑随机效应); 从衡量指标 $F1$ 和 $F2$ 的计算结果发现: 四种方法均具有较好的变量选择能力且差距不大. 故对于高维稀疏模型, 混合惩罚方法具有较好的系数估计效果和变量选择能力.

表4 稠密模型下四种惩罚方法衡量指标结果

下面将根据表4给出如下模拟结果分析: 从衡量指标MSE的计算结果发现: 双Lasso惩罚方法 $>$ 双SCAD惩罚方法 $>$ 混合惩罚方法 $>$ SCAD_L $_2$ 惩罚方法(不考虑随机效应); 从衡量指标 $F1$ 的计算结果发现: 上述四种方法均能准确地筛选出重要变量. 故对于高维稠密模型, 混合惩罚方法具有较好的系数估计效果和变量选择能力.

结合表3-4, 我们可以发现无论是对于高维稀疏模型还是高维稠密模型, 双 Lasso 方法均具有较好的系数估计效果和变量选择能力. 但是从理论上分析, 该方法不具有渐近性质, 故不适用于大样本数据;双SCAD方法对于高维稠密模型更加有效; 此外对于模型(4.1)而言, 仅针对固定效应系数施加惩罚是不够的, 具有一定程度的误差; 而该混合惩罚方法则更加适用于当前热门研究课题中的高维稀疏化模型.

下面从分组效应角度来分析上述不同惩罚方法的效果差异.

4.4.2 分组效应的效果比较

下面将考虑在更高维数的稀疏模型下比较四种不同惩罚方法的分组效果, 这里根据模型 (4.1)生成数据. 为使分组效应^[17]在实验中有更明显的结果, 这里需要重新确定各变量的取值, 取 $\beta = (\underbrace {3,\cdots,3}_{15},\underbrace {0,\cdots,0}_{25})$ , $k=40$ , $j=1$ , 其中设计矩阵 $X = {\left( {{x_{ij}}} \right)_{{\rm{40}} \times 1}}$ 分成四组以确保每一组设计矩阵中变量间的相关系数趋近于 1, 并且每组均按如下准则随机产生

$\begin{matrix} \begin{array}{ll} {x_{ij}} = {Z_1} + {\alpha _{ij}},{Z_1}\sim N(0,1),{\rm{ }}&i = 1,2,\cdots,5, {\rm{ }}j{\rm{ = 1,}}\\ {x_{ij}} = {Z_2} + {\alpha _{ij}},{Z_2}\sim N(0,1),{\rm{ }}&i = 6,7,\cdots,10, {\rm{ }}j{\rm{ = 1,}}\\ {x_{ij}} = {Z_3} + {\alpha _{ij}}{\rm{, }}{Z_3}\sim N(0,1),{\rm{ }}&i = 11,12, \cdots,15,{\rm{ }}j{\rm{ = 1,}}\\ {\rm{ }}{x_{ij}}\sim N(0,1){\rm{ }}&i = 16,17,\cdots,40, {\rm{ }}j{\rm{ = 1,}} \end{array} \end{matrix}$

(4.3)

其中 ${\alpha _{ij}}\sim N(0,0.01), {\rm{ }}i = 1,2,\cdots,15, {\rm{ }}j{\rm{ = 1}}$ . 在仿真实验中,令随机误差 ${\varepsilon _{ij}}\sim N(0,1)$ , 并且将 $\sigma$ 恒定设置为 1; 在有适当随机变量干扰程度的影响下, 综合考虑计算机的运行速度, 这里令随机效应的协方差为 $D = diag(1,1,1,1,0)$ ; 然后由广义GCV参数选取准则得到的调优参数 $(\lambda_1,\lambda_2,\lambda_3)$ 对模型进行训练拟合, 最后将所得结果用于测试集中以检验系数估计效果; 取混合惩罚函数中的常数 $a$ 为3.7(见参考文献[7]). 由四种不同惩罚方法得到的分组效应结果见表5, 其中 ${X_i} = {x_{ij}}$ , 且各列数据代表由不同惩罚方法得到的系数估计 $\beta$ . 下面将根据表5给出如下模拟结果分析

表5 不同惩罚方法下的分组效应结果

(1) 在高维稀疏模型中, 利用混合惩罚方法所得系数估计结果更加准确, 并且在以每五个相关性很高的变量为一组的情况下, 相应筛选出来的变量系数近似相等且与真实系数最为接近, 即混合惩罚方法表现了很好的分组效果.

(2) 不考虑随机效应的SCAD_L $_2$ 惩罚方法虽然对固定效应体现了分组效应, 但是其对第三组变量的系数估计值与真实系数值存在较大偏差, 故仅考虑固定效应是不够的.

(3) 在高维稀疏模型下, 无论是对模型(2.1)施加双SCAD惩罚方法还是双Lasso惩罚方法, 所得结果均不具备分组效应.

(4) 结合上述三条分析得出: 对于更高维数的稀疏模型, 混合惩罚方法具有很好的分组效应.综上, 该混合惩罚方法具有很好的分组效应, 表现出更优良的系数估计效果和变量选择能力.

5 实例分析

本节将通过实例验证该混合惩罚方法的统计效果. 本文将混合惩罚方法应用于在线新闻流行度数据集^[18]研究中, 该数据集总结了一组关于在两个阶段发布的全球之声文章的异构特性, 其研究目的在于使得所发布的文章在社交网络中获得更多的人气.

本文从HTML代码中提取了一个广泛的特性集, 其描述了文章不同方面的特征, 这些特征被认为可能是影响文章流行度的相关因素, 如表6所示. 其中一些特性依赖于Mashable服务的特殊性: 如文章经常引用在同一服务中发布的其他文章等. 本文还提取了一些自然言语处理的特征, 如LDA算法应用于所有Mashable文本, 并据此确定5个最重要的相关主题, 衡量当前文章与这些主题的密切程度. 这里用 $X_i\ (i=1,2,\cdots,60)$ 表示相应的自变量.

表6 影响文章流行度的60个特征集表

本文借鉴了Fernandes^[18]所提出的方法以判断文章是否受欢迎, 这里采用Scikit学习库对预测模型进行拟合, 首先假设一个二元分类任务, 如果其中一篇文章的分享数高于一个固定的决策阈值(这里选用1000), 则认为其是“受欢迎的”, 否则认为是“不受欢迎的”. 对于预测实验, Fernandes在文献[18]中采用了滚动窗口方案, 即取训练窗口大小为10000进行29次迭代, 每次迭代进行1000个样本的预测, 并据此测试了五种分类模型. 结果表明, 随机森林(RF)模型在AUC度量方面的表现最佳, 得到的最佳结果(AUC=0.73)比随机分类器高23%, 达到了较好的辨别水平, 是一个良好的分类器. 本文据此对上述四种不同的分类方法做了相似的实验, 结果表明, 该混合惩罚方法在AUC度量方面的表现最佳, 达到72.8%, 与RF模型的分类水平相近, 表明了混合惩罚在该阈值下同样有较好的分类效果.

为了更加直观地验证混合方法的分组效应, 本文根据原始数据分别求得各变量间的相关系数, 结果得到仅 $X_{36}$ 和 $X_{38}$ 及 $X_{44}$ 和 $X_{50}$ 这两组解释变量间具有很高的相关性, 其相关系数分别为0.662和0.632; 利用上述四种不同的惩罚方法对影响新闻流行度的所有自变量进行变量选择和系数估计并计算均方误差(Root Mean Squared Error, RMSE), 相应的系数估计结果如表7所示, 其中表7中非零系数对应的变量为筛选出的与人气值最为相关的重要变量, 其余均为非重要变量.

根据表7发现针对 $X_{36}$ 和 $X_{38}$ 及 $X_{44}$ 和 $X_{50}$ 这两组具有强相关性的解释变量, 只有利用混合惩罚方法所得的 $X_{36}$ 和 $X_{38}$ 的估计系数近似相等; 同样 $X_{44}$ 和 $X_{50}$ 对应的估计系数也十分接近. 这体现了混合惩罚方法具有很好的分组效应, 并且所得RMSE最低仅为1.30, 说明混合惩罚方法具有更优良的系数估计效果和变量选择能力.

综上,该混合惩罚方法具有的优良统计性质有利于筛选出影响在线新闻流行度的相关变量以使发布的文章获得最佳人气.

表7 混合惩罚方法的实例结果

6 总结与展望

本文对模型(2.1)提出了一种基于SCAD_L $_2$ 惩罚和SCAD惩罚的混合惩罚方法, 论证了在混合惩罚下固定效应不仅具有良好的变量选择能力和系数估计能力, 还具有很好的分组效应, 并且随机效应也具有良好的变量选择能力, 这是由两种不同惩罚方法的性质所决定的. 进一步通过蒙特卡洛模拟对该混合惩罚方法的统计性质进行了验证, 结果表明: 与其他惩罚方法相比, 在不同信噪比和随机效应下该混合惩罚方法具有较好的系数估计和分组效应效果. 同时通过在线新闻流行度的实例验证了混合惩罚方法具有更优良的统计性质, 适用于高维稀疏模型.

仍有大量工作值得今后继续研究, 如: 将混合惩罚方法进一步应用到随机效应分位回归模型等其他模型中; 对两步迭代算法加以改进以节约模拟实验中计算机的运行时间; 在基因表达和前列腺癌症等实例中验证混合惩罚方法的系数估计和分组效应效果等.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

陈钊, 范剑青, 王丹.

高维因子模型及其在统计机器学习中的应用

中国科学, 2020, 50(4): 447-490

Chen

, Fan

J Q

, Wang

High-dimensional factor and its applications to statistical machine learning

China Science, 2020, 50(4): 447-490

[2]

R K W

, Hu

Flexible modelling of random effects in linear mixed model-a bayesian approach

Computational Statistics & Data Analysis, 2008, 52(3): 1347-1361

[3]

West

, Blanchette

, Dressman

, et al.

Predicting the clinical status of human breast cancer by using gene expression profiles

Proceedings of the National Academy of Sciences of the United States of America, 2001, 98(20): 11462-11467

[4]

Zou

, Hastie

Regularization and variable selection via the elastic net

Journal of the Royal Statistical Society, 2005, 67(2): 301-320

[5]

Hoerl

A E

, Kennard

R W

Ridge regression: Biased estimation for nonorthogonal problems

Technometrics, 2000, 42(1): 80-86

DOI:10.1080/00401706.2000.10485983 URL [本文引用: 1]

[6]

Tibshirani

Regression shrinkage and selection via the lasso: a retrospective

Journal of the Royal Statistical Society, Series B. Statistical Methodology, 2011, 73(3): 273-282

DOI:10.1111/j.1467-9868.2011.00771.x URL [本文引用: 1]

In the paper I give a brief review of the basic idea and some history and then discuss some developments since the original paper on regression shrinkage and selection via the lasso.

[7]

Fan

, Li

Variable selection via nonconcave penalized likelihood and its oracle properties

Journal of the American Statistical Association, 2001, 96(456): 1348-1360

DOI:10.1198/016214501753382273 URL [本文引用: 2]

[8]

Zou

, Hastie

Regularization and variable selection via the elastic net. Journal of the Royal Statistical Society, Series B

Statistical Methodology, 2005, 67(2): 301-320

[9]

Zeng

, Xie

Group variable selection via SCAD_L $_2$

Statistics, 2014, 48(1): 49-66

[本文引用: 5]

[10]

Ibrahim

J G

, Zhu

, Garcia

R I

, et al.

Fixed and random effects selection in mixed effects models

Biometrics, 2011, 67(2): 495-503

DOI:10.1111/j.1541-0420.2010.01463.x PMID:20662831 [本文引用: 1]

We consider selecting both fixed and random effects in a general class of mixed effects models using maximum penalized likelihood (MPL) estimation along with the smoothly clipped absolute deviation (SCAD) and adaptive least absolute shrinkage and selection operator (ALASSO) penalty functions. The MPL estimates are shown to possess consistency and sparsity properties and asymptotic normality. A model selection criterion, called the IC(Q) statistic, is proposed for selecting the penalty parameters (Ibrahim, Zhu, and Tang, 2008, Journal of the American Statistical Association 103, 1648-1658). The variable selection procedure based on IC(Q) is shown to consistently select important fixed and random effects. The methodology is very general and can be applied to numerous situations involving random effects, including generalized linear mixed models. Simulation studies and a real data set from a Yale infant growth study are used to illustrate the proposed methodology.© 2010, The International Biometric Society.

[11]

任雪妮, 罗幼喜.

基于双SCAD惩罚的随机效应分位回归模型

统计与决策, 2021, 37(18): 9-13

Ren

X N

, Luo

Y X

Random effects quantile regression model based on double SCAD punishment

Statistics & Decision, 2021, 37(18): 9-13

[12]

Bondell

H D

, Krishna

, Ghosh

S K

Joint variable selection for fixed and random effects in linear mixed-effects models

Biometrics, 2010, 66(4): 1069-1077

DOI:10.1111/j.1541-0420.2010.01391.x PMID:20163404 [本文引用: 1]

It is of great practical interest to simultaneously identify the important predictors that correspond to both the fixed and random effects components in a linear mixed-effects (LME) model. Typical approaches perform selection separately on each of the fixed and random effect components. However, changing the structure of one set of effects can lead to different choices of variables for the other set of effects. We propose simultaneous selection of the fixed and random factors in an LME model using a modified Cholesky decomposition. Our method is based on a penalized joint log likelihood with an adaptive penalty for the selection and estimation of both the fixed and random effects. It performs model selection by allowing fixed effects or standard deviations of random effects to be exactly zero. A constrained expectation-maximization algorithm is then used to obtain the final estimates. It is further shown that the proposed penalized estimator enjoys the Oracle property, in that, asymptotically it performs as well as if the true model was known beforehand. We demonstrate the performance of our method based on a simulation study and a real data example.© 2010, The International Biometric Society.

[13]

Fan

, Li

Variable selection in linear mixed effects models

Annals of Statistics, 2012, 40(4): 2043-2045

[14]

罗幼喜, 李翰芳.

混合效应模型的多惩罚回归过程及其算法收敛性研究

统计与信息论坛, 2017, 32(10): 3-10

Luo

Y X

, Li

H F

Research of multi-penalty regression process of mixed effects models and its convergence

Statistics & Information Forum, 2017, 32(10): 3-10

[15]

李根, 邹国华, 张新雨.

高维模型选择方法综述

数理统计与管理, 2012, 31(4): 640-658

, Zou

G H

, Zhang

X Y

A review of high-dimensional model selection methods

Journal of Applied Statistics and Manage, 2012, 31(4): 640-658

[16]

, Liu

Variable selection in quantile regression

Statistica Sinica, 2009, 36(5): 801-817