都市中国社会学新探
上QQ阅读APP看书,第一时间看更新

五 数据、测量和分析策略

(一)数据

本章所用的数据来自“城市化问题中的农民工问题”课题组。这一调查由中山大学社会学系于2006年7~8月在珠江三角洲地区展开。调查对象是当年在珠江三角洲9个城市打工的、大专学历以下的跨县(区)域农村户口持有者。

由于缺乏流动人口的完整的注册表,对这一群体不可能进行随机抽样。项目组采取的是比例抽样。具体的方案是,首先按照每个市流动人口在9市总的流动人口数量中所占的比例分配样本数;然后按照广东省统计年鉴中二、三产业流动人口的比例进一步分配每个市的样本量在产业上的分布。在具体的抽样过程中,获取调查对象采用的是拦截法和“滚雪球”的方法。问卷通过面对面的访谈完成,即由访问员读出问卷上的问题并记录调查对象的答案,完成一份问卷大概需要一个半小时。调查最终得到的样本量是3970,其中3085位调查对象在企业打工(正式就业样本),其他的是非正式就业者。正式就业样本中,第一位东莞市的样本量为612(19.8%),第二位广州市的样本量为415(13.4%)。珠海市的样本量是194(6.3%),是9个城市中所占样本量最小的一个地区。另外,60%的调查对象在私有企业中工作,22%在外资企业,9%在国有企业。

(二)方法

本章使用离散时间事件史模型(competing-risk discrete time event history model)来估计第一次离职的风险(risk)。事件(event)是由一种状态到另一种状态的转换(Box-Steffensmeier and Jones,2004)。本章关注的事件是第一次离职,即从第一份工作到没有工作的转换。然而,上文讨论过,第一次离职可以采取很多方式,这些不同的方式构成了所谓的“相互竞争的风险”(competing risks),即一人只能经历这些不同类型的风险中的一种。多项式分对数模型可以用来处理这种相互竞争的风险问题(Allision,1984;Box-Steffensmeier and Jones,2004)。

在离散时间事件史模型中,每个变量通常是逐年测量的,适用于这种模型的数据由person-year组成。在本章中,一个人从得到第一份工到通过自愿离职、被解雇、无过失非自愿离职或被删截(censored)而离开风险集(risk set)的这段时间内,每一年都会有一个相应的个人记录(record)。如果某一调查对象到问卷调查时为止还没有经历任何形式的离职行为,我们会把他/她按照“被删截”来处理。对一个特定的个体来说,随时间变化的变量(time-varying variables) 的值在他/她所有的person-year数据中会随着时间发生变化,而其他变量则始终保持不变。能够将这种变量纳入模型是离散时间事件史模型的一大优势,它使得更精确的预测成为可能(Steffensmeier and Jones,2004)。

(三)因变量的测量

本章的因变量测量的是个体职业状态的变化,它有4个类别。对某一调查对象来说,如果截止到调查日期还没有发生任何离职行为,他/她在这个变量上的值保持为0。在问卷设计中,调查对象被要求给出第一次离职的原因(多项选择)。基于这一信息,我们把出于以下原因的第一次离职归为自愿离职:工资低、工作环境差、生活环境差、工作太累等(赋值为1)。出于以下原因的第一次离职归为无过失非自愿离职:公司换地址和工厂倒闭(赋值为2)。在样本中,有45位调查对象离开第一份工作的原因中包括“被开除”,这种情况组成了因变量的第4个类别(赋值为3)。从表1-1中我们可以看到,719位调查对象到调查日期为止仍然在做第一份工作;在换过工作的人之中,90.59%是自愿离职的,7.68%是由于不可抗力离职的,剩下的是被开除的。

(四)自变量的测量

模型中加入的自变量是在文献回顾部分中讨论过的对换工过程有重要影响的各种因素。其中,年龄、进入第一份工作起经过的时间和生育状况是随时间变化的变量(time-varying variables)。年龄变量的值每过一年增加1,直到调查对象离开风险集或被删截。孩子的数量也是一个随时间变化的变量。生育情况作为限制性因素会影响农民工的换工行为,而离散时间事件史模型可以很容易地处理这种生育的时间性。进入第一份工作后经过的时间测量的是持续性依赖。

自变量还包括性别、受教育程度、婚姻状况和第一份工作的月收入。尽管受教育程度和婚姻状态也是随时间变化的,但数据只有受访者在调查时点的教育和婚姻状态。此外,离散时间事件史模型可以估算时期效应(period effect),这使得我们可以考察在文献回顾部分讨论过的工作流动的时间趋势问题。样本中,最早的一个事件发生在1979年,最晚的发生在2006年。我们设置了一个虚拟变量来测量事件是否发生在1970~1990年(是=1;否=0)。对于1991~2006年这个时间段,我们则为每一个年份都设置了一个虚拟变量。如果事件发生在1991年,赋值为1,否则赋值为0;依此类推。2000年为参照年份,这样我们就能够观察2000~2006年工作变动的概率。一般认为,2004年是“农民工短缺”的开始年份。因此,这种变量设置策略允许我们对比2004年之前和之后的转工模式,并使得我们可以考察转工模式与“农民工短缺”之间的联系。表1-1和表1-2是分析中用到的所有自变量和因变量的描述性数据。

表1-1 离散时间事件史模型分析中用到的离散性变量的频数分布(N=2789)

续表

表1-2 离散时间事件史模型分析中用到的连续性变量的频数分布(N=2789)

(五)第一次离职的竞争性风险离散时间事件史模型的结果

表1-3是用最大似然法估算的各个因素对第一次离职概率的影响。以前的研究提出,由于年龄可以近似地测量各种个人时间变量,当其他个人时间进入模型之后,年龄的作用会消失(Rosenfeld,1992)。鉴于此,我们首先估算了只有年龄变量的模型1,然后在模型2中加入工作持续时间以考察年龄作用的变化,这样做也可以让我们更清楚地理解不同的个人时间变量与离职概率的关系。模型中的个人时间变量的设置(即年龄和工作持续时间的二次方项和三次方项)假设个人时间对离职概率具有非线性的影响。这样做首先是因为研究发现个人时间对换工的影响在不同的研究中的作用是不一致的,这意味着两者之间的关系可能是非单调的(Rosenfeld,1992)。其次,检验结果显示加入年龄和工作持续时间的二次方和三次方项确实可以显著地提高模型的解释能力。

表1-3 第一次工作变动的离散时间事件史模型

续表

续表

由模型1的结果可以看到,年龄的作用确实比原初假设的要更为复杂:随着年龄的增加,自愿离开第一份工作的概率首先会增大,然后降低,然后又增大。受教育程度高的农民工更有可能自愿离职。与研究假设一致,工资对自愿换工的影响大而且显著:工资越低,辞职的概率越高;婚姻状况和生育状况对自愿离职没有显著性的影响。另外,自愿辞去第一份工作的概率显示出明显的时间模式。与参照年份2000年相比,2004年和2005年的自愿离职概率要高很多,而正是在这两年开始出现所谓的“民工荒”。因此,统计结果显示,“民工荒”发生的时间段与样本中最高的转工概率发生的年份正好重合。这个发现不能简单地归因为巧合,因为我们认为工作流动率与农民工短缺是紧密联系的两个现象,本章的末尾会对这一点有进一步的讨论。2006年仍然有“民工荒”存在,但是2000年和2006年的辞职概率没有显示显著的区别。我们对这一结果提出以下可能的解释,这项调查是在2006年7~8月进行的,这意味着数据不能涵盖发生在这一年的所有自愿换工的事件。我们由此认为,2006年记录到的比较少的辞职案例可以解释这种统计上的不显著性。

在模型中加入工作持续时间之后(见表1-3中的模型2),年龄对辞职概率的第一个正向影响消失了,但是随着年龄的继续增加,首先增大然后减小的年龄效应仍然显著。在某一公司工作的时间越久,即工作持续时间越长,辞职的概率会首先增加,然后降低,最后又出现增加趋势。其他自变量仍保持在模型1中与自愿离职概率的关系。

表1-3中的“被解雇”模型显示,年龄对被解雇的概率与对自愿辞职的概率的影响不同。一个人年龄越大,他/她越不可能被解雇。在这里,年龄的作用仍然是非线性的,因为随着年龄增大到一定程度,年龄的继续增加会增加一个人被解雇的概率。受教育程度对被解雇的概率无显著性的影响。婚姻状况和生育状态也不影响被解雇的可能性。在被辞退的可能性上没有发现时间趋势。这一结果部分上可能是因为样本中经历被解雇的人太少,导致模型中有的表格单元样本量太小(这一点可以通过时间虚拟变量的超大系数有所体现)。工作持续时间对被解雇的概率并没有影响。收入对被解雇的影响在两个模型中是显著而一致的。

(六)工作流动结果的OLS回归分析

有关换工对农民工工资影响的现有研究认为换工是一种人力资本,换工次数越多,工资水平也就越高(赵延东、王奋宇,2003;刘林平等,2006;刘林平、张春泥,2007)。另一方面,大家普遍认为“用脚投票”是农民工用来表达自己不满和意见的一种方式。一个重要的问题是,如果换工(“用脚投票”)真的在发挥这些功能,那么考察换工是否真的可以提高农民工在第二份工作上的收入,就显得很重要了。如果我们发现自愿换工和非自愿换工对接下来的工资水平的影响没有区别,这意味着换工作为一种积累人力资本的方式值得商榷,并且不能被过度“美化”成一种有效的表达不满的行动策略。但是,如果结果显示自愿换工与非自愿换工相比可以为农民工带来更高的收入,我们就有证据证明农民工在一定程度上可以通过行动改善自己的生活。

从表1-1可以看到,换工类型与工资是否增加有紧密的联系。在自愿辞去第一次工作的工人中,72%在第二份工作上得到了更高的工资。这一比例在因被解雇和因不可抗力而失去第一份工作的农民工中分别为61%和66%。因此,自愿换工更有可能带来工资待遇的提高。

表1-4是第一次换工后工资是否增长的符号逻辑回归模型的结果。因变量是工资变化情况,如果第二份工作的工资比第一份的高,因变量的值为1,否则为0。这个模型的样本是总样本中至少换过一次工作的农民工。重要的解释性自变量是第一次换工的类型。鉴于第一次换工的人中被解雇的人数比较少,我们把这部分样本与因不可抗力而离职的农民工合并在一起,组成“非自愿换工”这个类别,因而换工类型在这个模型中有两个类别:自愿换工和非自愿换工。从这个模型得到的最重要的发现是,与非自愿离职的农民工相比,自愿离职的农民工更有可能在下一份工作上得到更高的工资。同样值得注意的发现是,第二份工作的类型是自我雇佣的农民工也会挣得更多。这表明,对在中国城市中工作的农民工而言,自我雇佣是获得社会经济地位上升的一条途径。第二份工作在外资企业的农民工也可以在工资待遇上有所改善。在过去的几年中,外资企业,尤其是那些规模大和知名度高的外资企业,受到来自NGO组织和一般大众的压力,提高了它们在发展中国家雇员的工资。这一点在我们的数据中得到了支持。

表1-4 工资增长的符号逻辑回归模型结果(N=2021)