因果推断笔记:Causal ML Book 回归调整、因果树与因果森林(RCT / CATE)
本文是对 Causal Inference and Machine Learning(在线书)两处内容的学习摘记: Randomized controlled trials — Regression adjustment(第 17 章的 17.3/17.4) Causal trees and forests(第 24 章的 24.0/24.1) 2026-04-21:RCT 中的回归调整(17.3 / 17.4) 1)用回归估计 ATE:为什么在 RCT 下成立 在随机对照试验(RCT)中,若直接做线性回归(最简形式): Y = α + τ·D + ε 在随机分配成立时,D 的回归系数 τ 可以作为 ATE 的无偏估计。 2)引入协变量:主要是提升精度(precision) 在 RCT 中把预处理协变量 X 加进回归,往往不是为了解决混淆(随机化已经在设计上解决),而是为了降低方差、提高估计精度。 常见做法(至少两类): 分组建模:对控制组与处理组分别建模,再组合得到效应估计 单一模型 + 交互项:在同一回归里同时放入 X 与 D·X(交互项) 如果不包含交互项,当处理效应存在异质性(不同人群的效应不同)时,估计可能会偏离我们希望的估计目标或产生不合适的加权。 3)标准误:使用 robust standard error 书中建议方差/标准误使用 robust standard error(异方差稳健)来估计。 4)协变量中心化(centering) 回归里引入协变量时,一个常见实践是先对协变量做中心化,让其期望为 0(例如 (X \leftarrow X - \mathbb{E}[X]) 或减去样本均值),便于解释主效应项并在包含交互项时提升数值稳定性。 ...