三 数据、方法和分析策略
(一)数据来源
本研究所使用的数据来自由中国人民大学社会学系和香港科技大学调查研究中心共同主持实施的中国综合社会调查(CGSS 2005)的城市居民样本[11]。基于本研究的考察对象和问题指向,非调查所在地区户籍的样本以及非城镇户籍的样本被筛掉,变量有缺失值的样本被删除,最后参与分析的第一层次的样本数为4577,第二层次的城市数为97,平均每个城市有47个个案。
(二)变量情况
本研究的因变量相关信息已在研究假设中有所介绍,这里简要报告本研究的自变量情况。在分析过程中,性别、年龄、年龄平方、受教育年限被作为控制变量引入。自变量则分为个体层次和城市层次两类,其中个体层次的自变量有劳动力市场附着程度、住房状况、社会经济地位指数(SEI)、主观社会经济地位层次;城市层次的自变量有城镇户籍人口数、公共服务财政支出额、城镇登记失业人口数。因变量和自变量的具体分布情况如表3-1所示。
(三)统计分析方法
对于二分类别的因变量通常使用二类别logit模型(binary logit model)来进行方程拟合,但是一般的此类模型却并不适合本研究的特殊情况。在本研究中,受访者来自全国不同的城市,而城市之间宏观变量分布情况都不一样,这就使得不仅同一城市的不同受访者的个体差异会导致其对外来人口迁入的态度产生不同影响,而且不同城市的宏观结构特征对个体的态度也会产生有差异的结构性影响。在这种情况下,就要考虑使用带有随机效应的二类别logit模型,因为相对于单纯的个体层次模型和宏观层次模型,多层次模型可以同时分析宏观层次变量和个体层次变量对因变量的影响效果(Kreft & Leeuw,2007:1),这就使得它的参数估计是无偏的而且是最有效的(Raudenbush & Bryk,2002:108),从而避免第一类错误的扩大。当因变量为二分类别变量,这时的多层次二类别logit模型即可视为广义线性混合模型(Generalized Linear Mixed Models)。
表3-1 变量分布情况
本研究使用的多层线性模型是其中的随机截距模型,直观上,它意味着不同城市都有各自的回归线,但是这些回归线彼此间是平行的,它们只是在截距上存在差异。选择随机截距模型是基于以下的假设,即每个城市的特征具有独特性。虽然城市可以嵌套于更高的层次,如省份、国家,但是国家给每个城市的政策背景基本上是相同的,而地方政府则可以根据本地的实际情况对这些政策实行最大可能的灵活性。因此在模型之中,笔者也就假定自变量的系数在每一城市组别中都是相同的,只有截距项可以随机变动。本章的多层随机截距模型具体如下所示。
个体层次的模型:
其中,βnj(n=0,1,…,8)是个体层次的回归系数;Xnij(n=1,2,…,8)是个体层次的城市j中个体i的自变量,它们分别对应性别、年龄、年龄平方、受教育年限、劳动力市场附着程度、住房状况、社会经济地位指数、主观社会经济地位层次;εij是个体层次的城市j中个体i的未被方程解释掉的残差。
城市层次的模型:
β0j=γ00+γ01W1j+γ02W2j+γ03W3j+μoj
其中,γ00、γ01、γ02、γ03分别是宏观层次变量的回归系数;W1j、W2j、W3j是城市层次的城市j中的三个解释变量,它们分别对应城镇户籍人口数、公共服务财政支出额、城镇登记失业人口数;μoj是城市层次的残差。从城市层次的模型也可以看出,本研究中只有方程的截距项可以随机变动,而每个城市的回归系数则是相同且固定的。
(四)分析策略
多层次模型要同时考虑个体层次和宏观层次变量对因变量的影响效果,而变量的增减会直接影响参数估计尤其是标准误的变化,所以它对解释变量的个数非常敏感,这就使其“并不是用来探索大量变量关系的技术,而是用来检验少量的变量及当模型每一次发生一些小小改变所产生的影响”(Kreft & Leeuw,2007:109)。基于这种特点,本研究遵行两条分析路径:一方面要对假设进行验证,为此只在控制变量基础上加入和各假设有关的解释变量,尽量减少其他无关变量对核心解释变量估计的影响;另一方面,通过模型拟合来发现到底哪类城镇居民倾向于不愿意或愿意外来人口迁入,而这主要依赖模型拟合的效果来判断。