2.3 倾向值匹配与其他社会科学方法的比较
前文从科技哲学以及统计学的角度阐释了为什么通过倾向值匹配可以得到因果性结论。然而,因果性分析的方法并不局限于倾向值匹配,在教育学以及计量经济学领域中有很多其他的方法可以帮助我们建构因果关系。在以下讨论中,笔者将把倾向值匹配与海克曼选择模型、回归中断设计以及工具变量方法进行比较,以凸显倾向值匹配的独特性。
2.3.1 倾向值匹配和海克曼选择模型
正如上文所述,倾向值匹配的基本思想涉及两个模型。在第一个模型中,通过常规的逻辑斯蒂或者是Probit回归,研究者计算出每一个被研究的个体接受某种处理效应的概率。例如分析个人接受大学教育的概率,接受某种实验处理的概率,等等。在得到这个概率,也就是倾向值得分之后,通过匹配的方法保证每个人能够拥有一个或者几个相对应的匹配个体。如果我们关心的是那些接受处理变量影响的个体所体现出的因果效果的话,那么我们就要保证大多数接受过处理的个案能够找到一个或者几个没有受过处理的控制个案与之匹配。[7]例如,如果我们希望知道对于大学毕业生而言大学教育是否明显带来经济回报的话,那么我们就需要将大学毕业生和一个或者几个没有上过大学的高中毕业生进行匹配。[8]在得到匹配好的数据以后,研究者就能够通过常规的t检验或者回归模型来进行分析,此时得出的结论就是因果性的结论了。
和倾向值匹配的思路类似,经济学家海克曼所提出的选择模型也是采取两步模型的分析策略。在第一个模型中,海克曼选择模型同样是估算个体接受某种处理变量影响的概率。在第二个模型中,海克曼选择模型探索某个处理变量对于特定因变量的处理效应(Heckman 1979)。具体而言,海克曼选择模型所要处理的问题是,研究者在针对某一群体进行研究的时候,实际上并不能够探索这个群体中的每一个人,相反,真正能够被研究者了解到的只是我们所关心的那个群体中的一部分人。例如,如果我们希望知道某个项目的效果(如职业培训项目对于提升被培训对象寻找工作成功率的影响),我们所能够分析的只是那些愿意参加这些项目的人,或者项目组织者所能够找到的人。对于那些没有在项目中出现的个体,我们实际上是无法了解的。这种情况就给我们的统计推断带来了困难,因为如果我们根据一小部分人所体现出的某种处理效应去推算一些我们不了解的个体时,我们所得到的处理效应就必然会是有偏(biased)的。换句话说,这时我们得到的处理效应相比于真实的处理效应而言就会被低估或者高估。至于具体是低估还是高估,则取决于我们的项目吸引人的方式。例如,高等教育机构有可能主要吸引那些家庭背景好、个人智商高的高中毕业生,那么他们大学毕业后的收入就有可能很好,即使这种高收入与他们在大学四年的教育无关。此时大学教育的劳动力市场价值就被高估了。当然,也有可能大学有意识地吸引一些社会边缘群体,他们在毕业以后受到各种各样的劳动力压制,从而体现出低收入,对于这种情况,大学的效用自然是被低估的。总之,如果我们的处理效应不是普遍性地适用于我们关心的群体中的每个人,而是体现出某种选择性,我们就需要对这种选择性做出处理,否则我们有可能得出令人误解的结论。鉴于此,海克曼认为研究者需要首先就个体参与某个项目接受处理的概率进行估算,然后基于此对一般回归模型进行修正。
在模型设定上,海克曼假定一个个体i是否能够被观测到接受某种处理取决于其潜变量(latent variable)z*i的取值。如果其值大于0,我们就能够观测到这个个案i的相关测量值,否则就观察不到。假定潜变量z*i是受变量wi影响的,那么我们就能设定如下模型:
z*i=wiγ+ui(个体接受处理的潜变量模型)
在这个模型中,wi是影响个体是否接受某种处理的混淆变量,γ是其系数,ui则是随机误差项。根据z*i的取值,我们有:
其中,yi和xi分别是我们所关心的针对个体i的因变量和自变量,而β和εi分别是模型系数以及误差项。如果潜变量z*i大于零,我们就能够观察到yi,否则就无法观察到。一般而言,针对个体接受处理的潜变量模型和预测个体因变量取值的模型,我们能够假定ui和εi的分布及其关系。我们一般将其设定为正态分布,且二者相关系数为ρ,亦即:
ui~N(0,σ2u)
εi~N(0,σ2ε)
ui和εi的相关系数为ρ。
在上述假定条件中,N代表正态分布。根据以上的这些假定,我们就能够计算出因变量yi在自身能够被观测到的前提条件下的条件期望值E(yi|yi是可观测到的)。具体的推断过程如下:
最后我们得到的是海克曼修正模型。和常规的线性模型相比,我们可以发现,在考虑选择误差以后,常规回归模型的自变量那里多了一部分。海克曼指出,我们在估计个体接受处理的潜变量模型时实际上已经能够计算得到,亦即γ的估计值。这也就是说,通过估计个体接受处理的潜变量模型,我们能够计算出,如果将ρ×σε合在一起看作一个回归系数βγ的话,我们通过个体接受处理的潜变量模型做出了一个新的变量,其回归系数就是βγ。在控制了以后,我们对于处理效果的估算才是能够真正反映无偏的回归效果。
和倾向值匹配模型一样,海克曼的选择模型对于传统的回归模型而言是一个巨大的突破,因为通过两个模型,海克曼的选择模型充分考察了个体接受某种处理的概率。而这一点恰恰是倾向值匹配方法所着重解决的。对比倾向值匹配和海克曼的选择模型,二者都需要在第一步模型中构建出一个明确的个体接受某种处理的概率。而这种概率,无论是通过匹配、加权等方法还是通过控制一个新生成的控制变量,都在第二步分析中考察并控制了选择性误差。实际上,通过逻辑斯蒂回归模型或者Probit模型得到的预测值恰恰就是,在这个意义上,倾向值匹配与海克曼的选择模型是相通的。
2.3.2 倾向值匹配和回归中断设计
在教育学中应用比较广泛的因果推论方法是“回归中断设计”(regression discontinuity design)。这个方法最先由唐纳德·西斯尔斯威特(Donald Thistlethwaite)和唐纳德·坎贝尔(Donald Campbell)在1960年提出(Thistlethwaite & Campbell 1960)。回归中断设计的逻辑非常直观,这里以西斯尔斯威特和坎贝尔的经典研究为例。在他们的研究中,西斯尔斯威特和坎贝尔关心的是学习上的荣誉奖励(原因)是否能够提升学生未来的学术成就(结果)。这里的荣誉奖励根据考试成绩而定:当考试成绩X超过一定分数C,则给予奖励(D=1);X<C时,则没有奖励(D=0)。通过这种操作,我们就在我们所关心的自变量的取值区间上建立了一种“中断”(C之下和C之上)。随后,如果学生的学术成就也发生了类似的中断(例如考试成绩在C以下的学生的学术成就低于考试成绩在C以上的学生的学术成就),则可以认为奖励和学术成就之间有因果关系。图2-2用图示的方式表达了这种关系。
图2-2 回归中断设计的基本逻辑
注:t代表因果效果。
图片来源:Lee & Lemieux(2010:287)。
图2-2中横坐标表示可观测到的“分配变量”(assignment variable),这个变量又可称为“强制变量”(forcing variable)或者“游走变量”(running variable)。这个变量的作用在于分配某种“处理”(treatment)。在西斯尔斯威特和坎贝尔的研究中,强制变量X是考试成绩。当成绩大于临界点C时给予奖励,否则就不给予奖励。这里的奖励代表某种处理。纵坐标表示因变量或者结果变量的取值,在西斯尔斯威特和坎贝尔的研究中,Y代表学术成就。
在图2-2中,X在C处的中断对应于因变量Y的中断,这种中断t代表X对于Y的因果效果。从反事实框架来看,回归中断设计满足非混淆假设。在上面的荣誉奖励的例子中,一个人得到荣誉奖励可以理解为一个人进入了实验组,而这“完全”取决于学生的考试分数X(分数高就有奖励,分数低则没有奖励)。因此,只要我们控制了分数X,w(是否得到奖励)就和因变量Y1(得到奖励的学生的学术成就)以及Y0(没有得到奖励的学生的学术成就)独立了。用公式可以表述如下:
E(Y1|w=0,X)=E(Y1|w=1,X)以及
E(Y0|w=0,X)=E(Y0|w=1,X)(非混淆假设:回归中断设计)
这里我们可以将回归中断设计与倾向值匹配进行比较。倾向值匹配将对多个混淆变量的控制转化为对单一倾向值的控制,以此满足非混淆假设。而回归中断设计通过控制一个变量(如上例中的考试成绩)就能完成这一点。之所以回归中断设计不需要考虑多个混淆变量就在于个体是否能够接受某个自变量的影响(即能否得到奖励)完全取决于单一变量X(考试成绩)。换句话说,回归中断设计中只有一个混淆变量X。然而,需要指出的是,社会学研究中很难找到这种单一混淆变量的情况。正是因为如此,回归中断设计在社会学中的应用远不及教育学中普遍(Angrist & Lavy 1999;Black 1999)。此外,回归中断设计的另外一个缺陷在于:如果存在其他自变量也出现某种“中断”,我们就很难确切地了解是什么因素造成了因变量取值的中断。假设一个人是否获奖不仅仅与考试成绩在临界点上下有关(X>C或者X<C),也和年龄有关(例如年龄大的人因为智力发育成熟而容易获奖,年龄小的人却很难获奖),则回归中断设计就无法探究荣誉奖励本身对于未来学术成就的影响(因为学术成就的中断也有可能因为C两端的被研究个体年龄不同)(Hahn et al. 2001)。在社会学研究中,类似的多重中断并不少见,这也使得回归中断设计的应用范围受到限制。
2.3.3 倾向值匹配和工具变量
除了回归中断设计,在经济学以及传染病学领域内应用比较广泛的另外一个方法是工具变量(instrumental variable)(Angrist et al. 1996;Angrist & Krueger 2001;Greenland 2000;Martens et al. 2006;Newhouse & McClellan 1998)。假定我们希望探索变量X对Y的因果关系,混淆变量U的存在会影响我们的研究。这时我们可以寻找到一个工具变量Z,这个变量的特点在于和X相关,但是不和Y直接相关(除非是通过X),同时Z也不同混淆变量U相关。这样,我们就不直接考察X是否能够影响Y,而是转而探索Z对Y的影响。如果Z很明显地影响了Y,我们就能够得出结论X影响了Y。
图2-3 工具变量的基本逻辑
通过图2-3我们很容易理解工具变量的基本逻辑。由于混淆变量U和X互相影响,我们很难直接探索X对Y的净效果,所以我们找到工具变量Z。Z和Y的关系只能通过X完成,因此如果我们能够发现Z对Y有作用,我们就能间接得出结论说X对Y有作用,从而确定了一种因果关系。
从严格的统计学角度出发,利用工具变量进行因果推论需要满足很多假设条件(Imbens & Angrist 1994)。这里可以通过一个经典实例来展示这些假设。经济学家约书亚·安格瑞斯特(Joshua Angrist)等人(1996)使用工具变量分析了服兵役(X)是否会对士兵在退伍后的健康状况(Y)产生因果性影响。这里,服兵役的工具变量是一个随机抽签的结果(Z)。当抽到的数字低于某个值时需要服兵役,高于这个值则不需要服兵役。在这个例子中,安格瑞斯特及其同事阐述了使用工具变量进行因果推论的几个关键假设。第一个假设称为“单位处理值稳定假设”(stable unit treatment value assumption)。这意味着每个人的抽签结果不会对他人是否服兵役产生影响。[9]第二个假设就是上面提到的非混淆假设,即抽签的结果和个体的健康之间相互独立。由于这里是随机抽签,这一条件自然得到满足。第三个假设是“排除性假设”(exclusion restriction)。这一假设意味着在因果推论中排除两类人。第一类人无论抽签结果如何都会服兵役(称为“总是服兵役的人”),第二类人是无论抽签结果如何都不会服兵役(称为“总是不服兵役的人”)。[10]第四个假设是“平均因果效果非零”(nonzero average causal effect)。第五个假设是“单调性”(monotonicity)假设,意指抽中小数字的人去服兵役的概率要比抽中大数字的人去服兵役的概率高。[11]根据这一个假设,那些“低数字偏偏不服兵役”而“高数字偏偏服兵役”的“叛逆者”[12]就被排除在外了。
根据这些假设,我们回到反事实框架下的因果推论公式,即T=[πE(Y1|w=1)+(1-π)E(Y1|w=0)]-[πE(Y0|w=1)+(1-π)E(Y0|w=0)]。这里由于我们有抽签的机制,π(即服兵役的比例)就等于X(Z=1),没有服兵役的比例1-π则等于X(Z=0),而w=X。其中,X表示是否服兵役,它是Z的函数,而Z表示抽签结果(Z=1表示抽中小号,Z=0表示抽中大号)。将它们代入反事实框架下的因果推论公式,我们得到:
T=[X(Z=1)E(Y1|X=1)+X(Z=0)E(Y1|X=0)]
-[X(Z=1)E(Y0|X=1)+X(Z=0)E(Y0|X=0)](因果推论公式:工具变量)
由于“叛逆者”被排除出去,可以假定E(Y0|X=1)=E(Y0|X=0)=0,从而进一步将因果关系简化成为:
T=X(Z=1)E(Y1|X=1)-X(Z=0)E(Y0|X=0)(简化因果推论公式:工具变量)
上述公式右端的各项都是可以直接观测到的,从而使得因果推论得以完成。然而,使用工具变量方法存在诸多限制。首先,我们所推论出的因果关系被称为“局部平均处理效果”(local average treatment effect)(Wooldridge 2002)。这是因为我们最终能够推算出的因果关系仅仅适用于那些遵循“拿到小号服兵役,拿到大号不服兵役”原则的“服从者”(complier)(Imbens & Angrist 1994)。我们不能考察总是服兵役的人、总是不服兵役的人或者“叛逆者”。其次,工具变量方法能否带来因果推论很大程度上取决于我们能否找到好的工具变量。如果工具变量本身不够好(例如工具变量和我们关心的自变量的联系很弱,或者和某些混淆变量相关),那么我们的结论就站不住脚了(Bound et al. 1995)。最后,工具变量的实施需要满足一定的随机性以满足非混淆假设。但是在社会学研究中,类似于随机抽签这样“完美”的工具变量几乎很少见到。
总之,无论是回归中断设计还是工具变量都没有倾向值匹配那样可以非常方便地应用于基于调查研究的数据分析。回归中断设计需要寻找一个变量“完全决定”个体是否进入实验组或者对照组,而工具变量的方法也需要寻找到合适的工具变量来满足上面列举的诸多条件,这些在调查数据中往往难以满足。正因为如此,在社会学研究中倾向值匹配的方法要比其他方法更为“流行”。