4.5 封闭式问卷下的样本选择偏差
与采用开放式问卷、支付卡式问卷相同,采用封闭式问卷进行调查也会出现部分抗议性支付。直接将这部分样本删除或将其支付意愿用较小的正数替代都可能会造成样本选择偏差。因此,同样有必要进行Heckman校正。
传统的Heckman样本选择模型在第一阶段的被解释变量为离散变量,其第二阶段的被解释变量为连续型被解释变量。当采用封闭式调查时,其第二阶段的被解释变量仍然是离散变量。因此,封闭式问卷下的样本选择问题与开放式问卷或支付卡式问卷下的样本选择问题存在差异。
定义两个阶段的被解释变量依次为y1和y2, y1表示第一阶段的“加入决策”:是否觉得应该为长江污染治理支付一定的费用,如果选择愿意则y1=1,否则y1取0。y2表示第二阶段的“购买决策”:向受访者随机提供某个投标值(如50元)问其是否愿意支付,如果选择愿意则y2=1,否则y2取0。
y*i为无法直接观测的潜变量,但是与y1和y2紧密相关。
其中,i=1、2。如果两阶段是独立的,则可以预期Cov[ε1, ε2]=0,此时分别对两个方程进行估计不会存在任何问题。但正如我们之前所强调的那样,很多时候Cov[ε1, ε2]=0很难满足,因为两个阶段的决策并不是孤立的,会受到一些共同因素的影响。进一步假定扰动项中的共同成分为ηi,则
ε1i=ηi+ u1i
ε2i=ηi+ u2i
为了方便分析,假定三类扰动成分都服从标准正态分布。于是
Pr(y1i=1)=Pr(ε1i>-x1β1)
=Pr(ηi+ u1i>-x1β1)
Pr(y2i=1)=Pr(ε2i>-x2β2)
=Pr(ηi+ u2i>-x2β2)
ε1和ε2的联合概率分布函数为
其中,ρ是ε1和ε2之间的相关系数。
于是可以得到ε1和ε2的联合累积分布函数:
Φ2=Φ(ε1, ε2)=∫ε∫1 ε2φ2(ε1, ε2, ρ)dε1dε2
若ρ=0,则Φ2为退化为两个独立的标准正态分布;若ρ≠0,则两个扰动项(进而变量)彼此关联,其中一个变量会影响另一个变量的分布函数。
类似地,关于y1和y2的联合分布函数为
极大似然函数可以设定为
其中,Φ2(·, ·, ρ)表示二元标准正态累积分布函数,两个变量的扰动项相关系数为ρ; Φ(·)为一元标准正态分布的累积函数。
式(4-50)可以很自然地推广至封闭式双边界问卷: