删失指标随机缺失下一般线性模型的加权最小二乘估计
Least Squares Estimators of General Linear Model with Censoring Indicators Missing at Random
通讯作者:
收稿日期: 2024-07-16 修回日期: 2024-11-7
基金资助: |
|
Received: 2024-07-16 Revised: 2024-11-7
Fund supported: |
|
该文在删失指标随机缺失下, 研究了一般线性模型的加权最小二乘回归估计; 基于校准、插值和逆概率三种加权方法, 分别构建了参数的估计量; 在适当的假设条件下, 建立了这些估计量的渐近正态性, 并提出了一种新的基于最小二乘加权残差 (LSWR) 的 Bootstrap 检验程序; 最后通过数值模拟和实证, 分析了这些估计方法和检验程序的有效性.
关键词:
This article investigates the weighted least squares regression estimators of general linear models with censoring indicators missing at random. Based on three weighting methods of calibration, interpolation, and inverse probability, parameter estimators are constructed respectively. Under appropriate assumptions, asymptotic normality of these estimators has been established, and a new bootstrap testing program based on least squares weighted residual (LSWR) is proposed. Finally, the effectiveness of these estimators and testing procedures are analyzed through numerical simulations and actual data.
Keywords:
本文引用格式
饶珍敏, 王江峰, 胡康, 何姗.
Rao Zhenmin, Wang Jiangfeng, Hu Kang, He Shan.
1 引言
本文讨论响应变量
其中
在生物医学和临床实验中, 经常会遇到受实验个体中途退出实验或者临床实验时间有限制等因素, 导致数据不能完全被观测, 此时观测到的数据被右删失了. 对于右删失数据, Miller[1] 提出使用未删失数据 KM 估计对斜率和截距进行加权, 但估计量的一致性需要临界条件. Buckley 和 James[2] 提出修正残差平方和来估计模型, 但该方法需要复杂的迭代算法. Koul 等人[3]提出了一种基于最小二乘的数据转换方法 (KSV), 这种方法不需要迭代且易执行. 接着, Stute[4] 提出了一种加权的最小二乘估计 (WLS), 证明了估计量的一致性, 并且模拟的估计效果要优于 KSV.
以上文章都是基于右删失数据, 在实际应用中, 删失指标往往会因为部分缺失而不能完全观测到. 根据缺失机制, 将随机缺失分为完全随机缺失 (MCAR) 和随机缺失 (MAR). 本文研究更一般的随机缺失, 在此类数据下, Li 和 Wang[5] 研究了线性回归模型的 WLS 估计, 分别使用校准加权, 插值加权和逆概率加权方法进行估计, 并证明了估计量的渐近正态性; Wang 等人[6]研究了线性回归模型的复合分位数回归估计量, 相比 Li 和 Wang[5] 提出的 WLS 估计更稳健. 针对一般线性回归模型, Guo 和 Xu[7] 在缺失数据下, 研究了一般线性回归模型的参数估计和非参数估计, 并证明了检验统计量的渐近性.
据我们所知, 在删失指标随机缺失数据下, 国内外还没有文献涉及到一般线性回归模型方面的研究. 本文在删失指标随机缺失数据下, 基于校准、插值和逆概率三种加权方法, 分别构造了一般线性回归模型参数的估计量, 并给出这些估计的渐近正态性结果, 把 Li 和 Wang[5] 线性回归模型的结果推广到一般线性回归模型中. 此外, 针对模型 (1.1) 中的未知参数向量
其中
2 估计方法
在右删失的情况下, 令
其中
考虑删失指标随机缺失的情况, 定义缺失指标
这样用
2.1 估计量的构造
在实际情况中,
对于函数
其中
在 (2.4) 式中, 用
在缺失数据分析中, 还会用到插值和逆概率两种方法来处理数据. 对于插值方法的加权, 由于
相应地, WLS 插值估计量为
对于逆概率加权方法, 根据 Horvitz 和 Thompson[8] 的方法, 令
这里
这样 WLS 逆概率估计量为
2.2 假设检验
(2.8)、(2.10) 以及 (2.12) 式的三个估计量可用于处理模型 (1.1) 中的假设检验问题 (1.2). 然而, 其对应的渐近协方差矩阵的计算非常复杂. 为了避免这个问题, 我们提出了一种基于最小二乘加权残差 (LSWR) 的新检验程序. 首先在原假设下, 定义
其中
类似地, 我们定义在备择假设下的加权残差平方和
当 (1.2) 式中的原假设成立时,
第一步 基于样本数据
第二步 计算残差
第三步 将第二步重复
第四步
3 主要结果
在得到结果之前, 我们先对一些需要用到的式子进行标记定义. 记
和
令
定义
设
其中
接着设
其中
为了证明主要结果, 我们给出以下基本假设
(A1 )
(A2 )
(A3 ) 矩阵
(A4 )
(A5 ) 窗宽满足
(A6 )
(A7 )
最后, 我们给出主要结果.
引理 3.1 在假设 (A4)-(A6) 下, 由 Li 和 Wang[5] 知
注 3.2 在 (A4)-(A6) 成立条件下, 通过泰勒展开式有如下结论
定理 3.1 在假设 (A1)-(A7) 下, 有
定理 3.2 在定理 3.1 假设条件下, 则有
定理 3.3 在定理 3.1 假设条件下, 则有
定理 3.4 在定理 3.1 假设条件下, 则有
4 模拟研究
本节通过模拟研究来验证所提出的估计量的有限样本性质, 并应用新提出的 Bootstrap 检验程序进行相应的假设检验. 模拟主要包含以下几方面内容: (1) 在一般线性模型下比较五种估计量的估计效果: 完全数据的估计效果 (记为
在模拟中, 核函数选为:
例 4.1 在这个例子中, 我们考虑如下线性模型
其中
通过表 1-2, 我们得到如下结论: (1) 总体来说,
例 4.2 为了验证假设检验的效果, 我们考虑如下简单模型
其中
我们将 5 种估计方法, 应用到 2.2 节所提出的 Bootstrap 检验程序, 样本大小为
从表 3 中可以看出, 当
例 4.3 为了能解决实际问题, 我们选取卢布尔雅那大学临床中心的急性心肌梗塞研究数据集进行模拟. 该数据集一共包含从 1980 年到 1998 年的 1040 个患者. 其中有 547 个患者的存活时间未被删失 (CR=47.4%). Wang 和 Wang[10] 研究了该数据集的线性建模, 其中 T=log(time), 是存活天数的 log 值.
由于这组数据删失指标是完整的,我们人为地对这组数据进行随机缺失, 缺失指标
随机缺失后, 1040 个患者中有 496 个患者的存活时间未被删失 (
首先应用提出的新假设检验程序来验证如下假设
如果 (4.5) 式中的原假设成立, 那么模型 (4.4) 是经典线性模型. 经过提出的 Bootstrap 检验, 设定重复次数
表 4 为各方法的假设检验结果以及在原假设下建模结果, 为了更好地评价模型估计效果, 我们加入两项模型评价统计指标: MADE 和 MSE, 其定义如下
其中
5 结果证明
引理 5.1 在 (A4)-(A6) 假设下, 则有
其中
引理 5.1 的结果在 Li 和 Wang[5] 中被证明, 根据其证明过程, 当
定理 3.1 的证明 令
首先, 我们计算
对于
由注 3.1 泰勒展开式有,
根据缺失机制条件, 可以得
接着我们计算
对于
对于
联立 (5.1)-(5.6) 式, 有
相应地, 对
令
在缺失机制的假设下, 有
由中心极限定理得
其中
其中
令
其中
联立 (5.10)-(5.13) 式, 有
同理可得
其中
针对协方差, 在缺失机制的假设下, 有
上面式子联立 (5.8)-(5.15) 式得
其中
定理 3.2 的证明 类似于 Wang 和 Dinse 在文献 [11,定理 2.2] 的证明, 这里省略.
定理 3.3 的证明 令
注意到
因此,
与
因此,
由中心极限定理得
其中
与 Wang 和 Dinse[11] 类似, 有
且
在假设条件下有
定理 3.4 的证明 令
与定理 3.3 证明类似, 可以证明后两项为
其中
由中心极限定理得
易得 Cov
参考文献
Regression analysis with randomly right-censored data
Consistent estimation under random censorship when covariables are present
The weighted least square based estimators with censoring indicators missing at random
Weighted composite quantile regression with censoring indicators missing at random
Goodness-of-fit tests for general linear models with covariates missed at random
A generalization of sampling without replacement from a finite universe
Locally weighted censored quantile regression
Linear regression analysis of survival data with missing censoring indicators
DOI:10.1007/s10985-010-9175-8
PMID:20559722
[本文引用: 2]
Linear regression analysis has been studied extensively in a random censorship setting, but typically all of the censoring indicators are assumed to be observed. In this paper, we develop synthetic data methods for estimating regression parameters in a linear model when some censoring indicators are missing. We define estimators based on regression calibration, imputation, and inverse probability weighting techniques, and we prove all three estimators are asymptotically normal. The finite-sample performance of each estimator is evaluated via simulation. We illustrate our methods by assessing the effects of sex and age on the time to non-ambulatory progression for patients in a brain cancer clinical trial.
/
〈 |
|
〉 |
