响应变量缺失下条件平均处理效应的k 近邻核估计
k -Nearest Neighbor Kernel Estimation of Conditional Average Treatment Effect with Missing Response Variables
通讯作者:
收稿日期: 2024-06-18 修回日期: 2024-09-13
基金资助: |
|
Received: 2024-06-18 Revised: 2024-09-13
Fund supported: |
|
基于 Neyman-Rubin 潜在结果框架, 构建
关键词:
Under the Neyman-Rubin potential outcome framework, we construct a
Keywords:
本文引用格式
曾华俊, 明瑞星, 苏培娟, 黄绍航, 肖敏.
Zeng Huajun, Ming Ruixing, Su Peijuan, Huang Shaohang, Xiao Min.
1 引言
因果推断是统计学研究的核心领域之一, 其中处理效应分析近年来受到越来越多学者的关注. 因果推断的处理效应研究旨在评估某个处理 (例如介入, 治疗, 政策干预等) 对特定结果变量的因果效应. 通常, 学者们采用 Neyman-Rubin 潜在结果框架, 通过估计平均处理效应 (average treatment effect, ATE) 来探究处理变量对结果变量的影响[1,2]. 当处理效应存在异质性时, ATE 模型仅关注整个群体的平均效应, 忽略了不同个体对处理的反应差异. 为考虑个体处理效应的异质性, 学者们构建条件平均处理效应 (conditional average treatment effect, CATE) 来测度不同处理方式对个体的影响[3,4], 并被广泛地应用在精准医疗, 经济, 社会学等多个领域[5,6,7].
在日益重视个体差异和个性化处理的背景下, 为更好地适应个体特征的多样性和非线性关系, 提供更加灵活和稳健的估计, 非参数方法成为 CATE 估计的一种有力工具. 常见的 CATE 估计的非参数方法有 Nadaraya-Watson (NW) 核估计方法,
需要说明的是, 虽然 NW 核方法和
现实中, 在很多研究中存在响应变量数据缺失情况[17,18]. 数据缺失机制一般分为三种类型: 完全随机缺失 (missing completely at random, MCAR), 随机缺失 (missing at random, MAR) 和非随机缺失 (missing not at random, MNAR). 关于处理效应研究与缺失数据方法结合的最新进展, 见文献 [19,20,21]. 由于 MAR 假设情形下的缺失更为普遍, 本文采用
文章其余部分的结构如下. 第 2 节介绍响应变量随机缺失下 CATE 模型, 并构造出 CATE 估计量. 第 3 节展示估计量的几乎完全收敛性和渐近正态性. 第 4 节采用数值模拟来探索
2 模型与估计
本文采用 Neyman-Rubin 潜在结果框架估计响应变量 MAR 情形下的条件平均处理效应. 对于个体
为估计 (2.1) 式, 需对处理分配机制和响应变量 MAR 机制作出必要的假设. 处理分配机制满足以下可忽略性假设[3].
(HT1 ) 给定
(HT2 ) 给定
由 (HT1) 和 (HT2) 知,
在响应变量MAR机制中, 缺失指示变量满足以下假设[25].
(HM1 ) 给定
(HM2 ) 给定
由 (HM1)-(HM2) 知,
根据假设 (HT1), (HT2), (HM1) 和 (HM2), 容易算得
其中,
其中,
在 (2.4) 式中,
这样,
3 渐近结果
本节研究 CATE 的
定义 3.1 设
其中, 符号 “a.co” 表示几乎完全收敛性 (almost complete convergence), 则称
定义 3.2 设
其中,
在介绍本文的主要结果前, 先给出一些必要的假设条件.
假设 3.1 对任意
假设 3.2 对任意
假设 3.3
假设 3.4 对任意
假设 3.5 核函数
假设 3.6 存在
假设 3.7 对任意
假设 3.8 记
假设 3.9 对任意
注 3.1 假设 3.1 在零点邻域内可将函数
在上述假设条件的基础上, 还需引入一些关键的记号. 记
用
其中
令 CATE 估计偏差
下面给出本文的主要结果.
定理 3.1 [几乎完全收敛性] 在假设 3.1-3.6 和响应变量 MAR 情形下, 对足够大的
此时,
其中
定理 3.2 [渐近正态性] 在假设 3.2, 3.4,3.7-3.9 和响应变量 MAR 情形下, 当
其中
4 数值模拟
本节采用数值模拟实验来探索
4.1 模拟过程与参数设定
首先介绍
(一)
步骤二 生成缺失变量. 给定处理组缺失度
步骤三 选择
步骤四 计算评价标准. 选定
(二) 参数设定
在模拟过程中, 数据生成分布和缺失指示变量分布是随机生成的. 为评估
为减少 GBDT, XGBoost 方法之间的差异, 调整 GBDT 和 XGBoost 的参数: 迭代次数为 100, 最大深度为 6, 学习率为 0.1, 其他参数设置为默认值. 这些参数能够在模型复杂性, 计算资源和预测性能之间取得良好的平衡, 确保模型在训练过程中有效收敛并避免过拟合. 在此基础上, 根据 X-Learner 预测 CATE, 并与真实值比较求出 GBDT, XGBoost 的 MAE 和 RMSE.
4.2 模拟结果与分析
通过模拟, 可以得到
(一) 样本量的影响
分析
为探索
图1
图1
(a)
(二) 缺失度的影响
分析
为探索
图2
图2
(a)
综上, 通过比较样本量和缺失度不同情形下的 MAE 和 RMSE 可知, 较于 GBDT 和 XGBoost 两种机器学习方法, 采用
5 实证分析
本节利用真实数据研究响应变量 MAR 情形下, 协变量分别为一维和二维时
在使用 IHDP 数据集研究之前, 需考虑协变量选取和
图3
本文将生成的缺失数据按照 7 : 3 的比例划分为训练集和测试集, 分别得出不同缺失度下
6 总结与展望
本文基于 Neyman-Rubin 潜在结果框架, 构建了响应变量随机缺失情形下的条件平均处理效应的
本文提出了响应变量随机缺失情形下的 CATE 的估计方法. 然而, 该方法没有考虑其他缺失情况和缺失机制, 如协变量的随机缺失和响应变量的非随机缺失等. 此外, 在模拟中需要选择两个不同的
附录
先介绍一些符号. 设
为证明定理 3.1, 需要引理 A.1 和引理 A.2, 其中引理 A.1 是引理 A.2 的基础, 利用引理 A.2 可以直接证明定理 3.1. 此外, 为了叙述的简洁, 定理 3.1 中关于几乎完全收敛性 (“a.co”) 的极限都是在
事实上, 对于响应变量 MAR 情形下条件平均潜在结果
其中,
下面的引理 A.1 证明了响应变量 MAR 情形下
引理 A.1 在假设3.1-3.6 和响应变量 MAR 情形下, 当
此外, 当
此时
证 注意到
其中
这样证明 (A.2) 式等价于证明以下三式成立
(A.5)-(A.7) 式的证明类似于文献 [定理 2] 的证明, 与之不同的地方是这里考虑响应变量 MAR 情形下的
注 A.1 不等式 (A.1) 通过控制
在介绍引理 A.2 前, 引入一个新的记号. 对于任意
引理 A.2 假设
那么
证 类似于文献 [引理 3] 的证明, 与之不同的地方是这里的收敛速度为
引理 A.1 说明将
定理 3.1 的证明 本定理的证明需利用引理 A.2 的结论, 故需要对引理 A.2 的五个条件进行验证. 沿用引理 A.2 的记号, 取
再取
(i) 条件 (H1) 是显然成立的.
(ii) 验证 (H2). 设
再利用文献 [28] 中的 Chernoff 不等式, 可得
又因为当
最后利用假设 3.6, 知条件 (H2) 成立.
(iii) 验证 (H3). 记
经过简单的计算, 有
其中
当
根据文献 [引理 1] 和假设3.1-3.2 得, 存在
显然
于是条件 (H3) 成立.
(iv) 验证 (H4) 和 (H5). 取
由于
由于条件 (H1)-(H5) 成立, 应用引理 A.2 可得
根据 (2.3) 和 (3.1) 式知
由 (A.6) 式得
注意到
所以
定理 3.1 得证.
在证明定理 3.2 之前, 先对
计算可得
其中
由于
假设处理组个体
其中
至此, 我们已将
定理 3.2 的证明 先计算
下面分别计算
记
根据假设 3.3 得
故而有
对于
易知
故有
对于
由 (A.14), (A.15) 和 (A.16) 式可得
所以
再计算
最后计算
采用与处理
对于
根据 (A.12) 式, 有
根据假设 3.3 可知
此外
其中
由假设 3.7 可得
故
所以
再根据假设 3.9 得
易得
利用上式可知
当
下面验证林德伯格条件. 记
设
为证明 (A.21) 式成立, 将其分为三个部分, 即
根据 (A.17), (A.18) 式和
声明 : 明瑞星与曾华俊在该项工作中贡献相同.
参考文献
The central role of the propensity score in observational studies for causal effects
Constructing a control group using multivariate matched sampling models that incorporate the propensity score
Estimating individual treatment effects using non-parametric regression models: A review
A survey on causal inference
Personalizing cholesterol treatment recommendations for primary cardiovascular disease prevention
The ties that unbind: Intergovernmental decision rules and the policy-opinion link
Causal inference with missing exposure information: Methods and applications to an obstetric study
Causal inference in observational studies is frequently challenged by the occurrence of missing data, in addition to confounding. Motivated by the Consortium on Safe Labor, a large observational study of obstetric labor practice and birth outcomes, this article focuses on the problem of missing exposure information in a causal analysis of observational data. This problem can be approached from different angles (i.e. missing covariates and causal inference), and useful methods can be obtained by drawing upon the available techniques and insights in both areas. In this article, we describe and compare a collection of methods based on different modeling assumptions, under standard assumptions for missing data (i.e. missing-at-random and positivity) and for causal inference with complete data (i.e. no unmeasured confounding and another positivity assumption). These methods involve three models: one for treatment assignment, one for the dependence of outcome on treatment and covariates, and one for the missing data mechanism. In general, consistent estimation of causal quantities requires correct specification of at least two of the three models, although there may be some flexibility as to which two models need to be correct. Such flexibility is afforded by doubly robust estimators adapted from the missing covariates literature and the literature on causal inference with complete data, and by a newly developed triply robust estimator that is consistent if any two of the three models are correct. The methods are applied to the Consortium on Safe Labor data and compared in a simulation study mimicking the Consortium on Safe Labor.© The Author(s) 2013.
Estimating conditional average treatment effects
Outcome regression-based estimation of conditional average treatment effect
Uniform consistency of kNN regressors for functional variables
Uniform consistency rate of kNN regression estimation for functional time series data
Greedy function approximation: A gradient boosting machine
Estimation and inference of heterogeneous treatment effects using random forests
Estimating treatment effects with causal forests: An application
The prevention and treatment of missing data in clinical trials
Identifying treatment effects using trimmed means when data are missing not at random
DOI:10.1002/pst.2147
PMID:34169641
[本文引用: 1]
Patients often discontinue from a clinical trial because their health condition is not improving or they cannot tolerate the assigned treatment. Consequently, the observed clinical outcomes in the trial are likely better on average than if every patient had completed the trial. If these differences between trial completers and non-completers cannot be explained by the observed data, then the study outcomes are missing not at random (MNAR). One way to overcome this problem-the trimmed means approach for missing data due to study discontinuation-sets missing values as the worst observed outcome and then trims away a fraction of the distribution from each treatment arm before calculating differences in treatment efficacy (Permutt T, Li F. Trimmed means for symptom trials with dropouts. Pharm Stat. 2017;16(1):20-28). In this paper, we derive sufficient and necessary conditions for when this approach can identify the average population treatment effect. Simulation studies show the trimmed means approach's ability to effectively estimate treatment efficacy when data are MNAR and missingness due to study discontinuation is strongly associated with an unfavorable outcome, but trimmed means fail when data are missing at random. If the reasons for study discontinuation in a clinical trial are known, analysts can improve estimates with a combination of multiple imputation and the trimmed means approach when the assumptions of each hold. We compare the methodology to existing approaches using data from a clinical trial for chronic pain. An R package trim implements the method. When the assumptions are justifiable, using trimmed means can help identify treatment effects notwithstanding MNAR data.© 2021 John Wiley & Sons Ltd.
Conditional separable effects
To adjust or not to adjust? Estimating the average treatment effect in randomized experiments with missing covariates
因果推断的统计方法
Statistical approaches for causal inference (in Chinese)
Confounding and collapsibility in causal inference
Criteria for confounders in epidemiological studies
Multiply robust estimation in regression analysis with missing data
Rate of uniform consistency for nonparametric estimates with functional variables
Bayesian nonparametric modeling for causal inference
Asymptotic normality of a nonparametric estimator of the conditional mode function for functional data
/
〈 |
|
〉 |
