因果树 | alex的算法技术日志

本文是对 Causal Inference and Machine Learning（在线书）两处内容的学习摘记： Randomized controlled trials — Regression adjustment（第 17 章的 17.3/17.4） Causal trees and forests（第 24 章的 24.0/24.1） 2026-04-21：RCT 中的回归调整（17.3 / 17.4） 1）用回归估计 ATE：为什么在 RCT 下成立在随机对照试验（RCT）中，若直接做线性回归（最简形式）： Y = α + τ·D + ε 在随机分配成立时，D 的回归系数 τ 可以作为 ATE 的无偏估计。 2）引入协变量：主要是提升精度（precision）在 RCT 中把预处理协变量 X 加进回归，往往不是为了解决混淆（随机化已经在设计上解决），而是为了降低方差、提高估计精度。常见做法（至少两类）：分组建模：对控制组与处理组分别建模，再组合得到效应估计单一模型 + 交互项：在同一回归里同时放入 X 与 D·X（交互项）如果不包含交互项，当处理效应存在异质性（不同人群的效应不同）时，估计可能会偏离我们希望的估计目标或产生不合适的加权。 3）标准误：使用 robust standard error 书中建议方差/标准误使用 robust standard error（异方差稳健）来估计。 4）协变量中心化（centering）回归里引入协变量时，一个常见实践是先对协变量做中心化，让其期望为 0（例如 (X \leftarrow X - \mathbb{E}[X]) 或减去样本均值），便于解释主效应项并在包含交互项时提升数值稳定性。 ...