潜在结果

在因果推断中,必须有干预,没有干预就没有因果(Rubin,1974)。这里的干预可以是一项政策、一项措施或者一项活动等,比如实施4 万亿的财政刺激方案,对农民工进行职业培训。本书主要关注二值的干预变量,两个值分别对应于积极的行动和被动的行动,分别称为(积极)干预和控制(干预),通常简称为干预和控制,受到对应干预的个体分别称为干预组和控制组。比如,对农民工进行培训,(积极)干预是参加培训,控制(干预)是没有参加培训。在这里干预和控制只是干预变量两种状态的标签,具体哪个干预状态称为干预,哪个状态称为控制并不重要,干预状态的两种称呼实际上是对0称的,可以互换,取决于研究者的目的和偏好。

对应于每个干预状态,就有一个(潜在)结果。在干预状态实现之前,有几个干预状态就有几个潜在结果,而干预状态实现之后,只有一个潜在结果是可以观测的。比如,考察大学教育对个人收入的影响,干预变量或原因变量是大学教育,那么对于任意个体\(i\)有两种干预状态,用\(D_i\)来表示,\(D_i=1\)表示个体\(i\)完成了大学教育,\(D_i=0\)表示个体\(i\)完成高中教育。无论个体实际是完成大学教育还是高中教育,事前每个个体均有两种可能的状态:完成高中教育或完成大学教育。每一个状态下对应于一个潜在结果,\(Y_{1i}\)表示个体在状态\(D_i=1\)下的潜在结果,\(Y_{0i}\)表示个体在状态\(D_i=0\)下的潜在结果。对个体而言,这两个潜在结果可以看作是确定性的变量,不因个体干预变量的实现状态而改变。比如个体i完成大学教育状态下的收入为8000元,即\(Y_{1i}=8000\),仅完成高中教育状态下收人为6000元,即\(Y_{0i}=6000\)。如果个体最后实际完成了大学教育,那么其两种干预状态下的潜在结果仍然是(8000,6000),如果个体i最后实际完成的是高中教育,其两种干预状态下的潜在结果还是(8000,6000),不因个体最后实现的状态而改变。可以将潜在结果看作常数对于每个特定的个体,他在两种干预状态下的潜在结果是给定的,不依赖于最终实现的干预状态,这一点对于理解 Rubin 因果模型很关键。

当干预状态实现后,我们仅能观测到实现状态下的潜在结果,没有实现状态下的潜在结果是无法观测的。无法观测到的潜在结果,通常称为反事实结果(counterfactual outcome)

关于因果效应的定义有两点说明:首先,因果效应的定义仅依赖于潜在结果,与哪一个潜在结果被观测到没有关系。回到前面大学教育如何影响收入的例子,无论个体\(i\)是否完成了大学教育,大学教育对其个人的因果影响都仅取决于其两种状态下的潜在结果,并且是固定不变的,不依赖于个体最终实现的干预状态。如果个体\(i\)完成了大学教育,大学教育(相对于仅完成高中教育)对其收入的影响是每月收入增加 2000 元。如果个体仅完成高中教育,那么如果他能够完成大学教育,则其每月收入也是增加 2000元。因而,因果效应的定义仅依赖于潜在结果,不依赖于实际实现的观测结果。其次,因果效应是干预后同一时间、同一物理个体潜在结果的比较。比如考察某种药对感冒的治疗效果干预状态是吃药或不吃药,对应的潜在结果是治愈感冒或没有治愈。因果效应应该定义为我现在吃药和不吃药对应潜在结果的比较,而不能用我现在吃药和昨天我没有吃药时的潜在结果进行比较。因为昨天的“我”和今天的“我”不是同一个“我”,我今天不吃药的潜在结果和昨天不吃药的潜在结果可能是不一样的,所以在评价今天我吃药的因果效应时,应该是今天我吃药和今天我不吃药时潜在结果的比较。

因果效应的定义仅依赖于潜在结果,是不同状态下潜在结果的比较。但研究者仅能观测到一个状态下的潜在结果。因而,如果仅有一个个体,我们是没有办法得到个体因果效应的。因果推断的核心内容,实际上是想办法将未观测到的潜在结果(即反事实结果)估计出来。估计未观测的潜在结果或反事实结果必须要用到多个个体。多个个体的选择有两种方式:同一物理个体不同时间或同一时间的不同物理个体。比如,判断一种药物是否对感冒有治疗效果,我们往往根据自己以往的经历。我以前感冒的时候吃药感冒就好了,我今天没吃药,头就很痛,因而,我们认为药物有治疗效果。其实这种推断中,我们进行了很强的假设,我们假设过去的经验可以作为今天吃药的反事实结果。如果这一假设不成立,我们就不能用过去吃药的结果作为今天吃药的反事实结果。因为今天的“我”与过去的“我”是不同的个体,我今天可能心情不好,不吃药头很痛,即使吃药,头仍然是痛的。这并不一定说明药没有治疗效果,而是因为我心情沮丧,使我的头更痛了,即我的头痛还混杂了其他的影响因素,今天的“我”和昨天的“我”不可比。很多时候,我们的推断是利用同一时间不同个体的信息来估计反事实结果。比如考虑大学教育对收入的影响。在上大学之前,我们不确定大学能给我们带来什么。我们只知道目前我的结果是什么样子,或收入是什么水平。但不知道大学毕业之后收入会是什么水平。那我们在决定是否上大学时,是怎么作出决定的呢?我们可能会观察那些上了大学的人,可能是亲戚或朋友家的孩子,现在已经大学毕业了,有个很好的工作,获得比较满意的收人那我们在作决策时是怎么做的呢?我们可能将他们的结果或收入作为我们上大学的潜在收人,从而决定是否上大学。事实上,后面章节的识别策略就是利用这种方式来推断的。这种情况下,因果推断的可信性,依赖于我们与亲戚朋友家孩子的相似性,越相似,这种推断越可信。

本章介绍了因果图的基本概念,因果图是与潜在结果框架等价的一种描述语言,但更加直观。我们介绍了三种路径结构:因果路径、共同原因和共同结果。三种情况下两变量之间表现出相关性:有因果关系、有共同原因或以共同结果为条件。因果推断的目的就是排除以共同原因和共同结果为条件造成的相关性,从而将由因果路径造成的相关性分离出来,因果路径体现的相关性就是因果效应。后门规则提供了三条基本的识别策略,以中间变量、共同原因为条件可以阻断后门路径产生的相关性,如果有共同结果,不要以共同结果为条件,从而不会产生非因果路径的相关性。由共同原因造成的偏差称为混杂偏差,以共同结果为条件造成的偏差称为样本选择偏差,实证分析的主要目的是消除这两种偏差.将因果效应识别出来。

打赏作者

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

CAPTCHA