
四、失业率的测算
失业率的测算是指不经过登记失业、也不经过调查失业等手段,而是用数学、逻辑推理、计量、系统工程等方法将各种失业率相关的指标计算出来。按照研究的对象大概分为两类,一类是计算整体的真实失业率,包括整体隐形失业人口、隐形失业率;一类为计算城镇真实失业率,包括计算城镇隐形失业人口等。按照研究的方法可以分为三类:第一类是概念法,用统计年鉴上的数据直接加总,主要涉及对概念的理解,这么多研究中出现了很多不同的结果,就是因为各位作者对概念的理解不一样;第二类是间接变量法,通过不能在有关年鉴上直接得到的数据来计算,比如利用劳动利用率、劳动参与率、衡量技术进步的索洛残值等;第三类是计量方法,运用回归分析与时间序列分析来模拟和预测,但往往由于数据较少,用这类方法有一定的优势也存在一定的劣势;第四类是系统工程方法,主要是运用神经网络、支持向量机、数据包络分析等。
(一)概念法计算
失业率测度问题对经济有很大的影响,但是中国目前的失业现象到底有多严重,是一个没有人说得清楚的问题。我国的就业问题分析在今后相当长的时期内都将遇到非常严峻的挑战(原修平,2004)。解决不好就业问题,我国的经济发展和社会稳定就可能会遇到重大障碍。这是因为经济数字缺乏准确性,将会增加政策风险。我国的改革本身需要真实的依据,被夸大的低失业率往往使政府采取无效甚至是错误的就业政策,导致国家宏观调控的低效率甚至失败(王亮,2007)。目前看来,我国就业调查统计已逐步与国际接轨,但受国情和体制影响,实际效果不够理想,调查的经济活动人口等指标范围确定不准,统计数据偏差较大仍是工作难点。从20世纪90年代开始(或者更早),就已经有学者开始尝试如何确定经济活动人口与失业人数的统计范围。
胡鞍钢(1998)提出的“城镇真实失业率”的计算方法,公式如下:
CZ=CD+GL+CNS
CZ为城镇真实失业人口、CD为城镇登记失业人口、GL为国有企业下岗人员、CNS为城镇中的农村劳动力失业人口。他的计算结果:1997年城镇真实失业率为6.9%。文中将“城镇中的农村劳动力失业人口”算为了失业人口,但是这类人群究竟算不算失业还有待考证,毕竟农村劳动力在城镇失业后,一部分回到农村,继续从事农业生产,而不应该算为失业。但也有那么一部分城镇中的农村失业人员,不愿意再次回到农村,而选择待业或继续找工作,或称之为摩擦性失业。
隐形失业是不容忽视的,在前文中有作者已经论述,一般的思路就是只要能统计出隐形失业人口,再结合城镇登记失业人口,那么就可以计算出城镇乃至全国的真实失业率。比如周长才(2001)就依据中国社科院经济研究所王诚(1996)的研究给出了计算农村隐性失业量的公式:
RDU=RE-TVE-PE-IE-FE-CE
其中RDU为农村隐性失业量、RE为农村总就业(从业)量、TVE为乡镇企业就业量、PE为私营企业就业量、IE为个体劳动就业量、FE为流入城市岗位就业量、CE为农业资源可容纳就业量。其中的CE数据通过农村生产性投资算得。
在计算城镇隐形失业人口时,他采用了国际劳工组织和中国劳动部在1995年联合进行的一次“企业富余劳动力调查”的数据,该调查数据显示城镇各类企业的综合隐蔽失业率为18.8%。这一数值基本上等于各权威部门对城镇就业中隐蔽失业率估算的中间值或平均值。在周长才(2001)的计算中,真实失业率在个别年份可以达到50%,这显然是很难让人信服的。
计算我国总的失业率,由于农村失业人口的划分与统计十分困难,所以很难开展。但我们可以假设农村的失业率为零(蔡昉,2004),原因是农村家庭承包制保证每个人拥有一块责任田,农村劳动力要么在非农产业就业,要么可以被视为在农业就业,失业率很低。因此在不能获得农村真实失业率的情况下,假设农村经济活动人口的失业率为零,把农村就业人口与经济活动人口视为相等,计算出来的调查失业率不会产生很大误差。建议利用国家统计局提供的信息估计调查失业率,先用国家统计局提供的城乡加总经济活动人口数减去农村就业人口得出城镇经济活动人口,再减去城镇就业人口,就可以得出失业人口,进而计算出真实的失业率。如图3-3所示,我国整体的失业率在1%~3%。

图3-3 蔡昉法计算出的我国整体失业率(2001—2010年)
如果按照蔡昉(2004)的方法,也可以计算出城镇真实失业率。城乡加总经济活动人口减去农村就业人口得出城镇经济活动人口,减去由登记失业率计算而来的城市户口就业者,那么就等于包含了登记失业人口的城镇失业人数。如图3-4所示,城镇真实失业率的范围在3%~9%,也符合当时的客观事实,有很大的说服力,该篇文章被引用多次,对后来的许多文章都产生了影响。

图3-4 蔡昉法计算出的我国城镇失业率(1991—2010年)
其他的研究人员如刘新汉(2004)认为利用就业面指数测算失业率,就可避免这些缺陷和不足。就业面指的是有一定就业收入劳动年龄人口在城镇人口中所占比重:

推导可以得到, S为有一定就业收入的劳动年龄人口,CJ为城镇从业人员,不难发现作者是将劳动人口分成了几类来计算真实的失业人口。S-CJ就属于劳动人口中未就业的那一部分。但作者以黑龙江为例计算出来的真实失业率在1999年到2003年却高达30%以上,很难让人信服。
龚刚敏(2005)在官方城镇登记失业人口的基础上,利用已有调查结论并充分考虑下岗与隐性失业等因素,得出了更为真实的调整失业人口与城镇小口径失业率,调整后的我国1978—2002年城镇小口径失业率在2.62%~7.64%,本书称之为“矫正口径失业率”。通过对解释变量(GDP增长率,第一产业GDP占比)进行多元线性回归,得出方程后对未来年份的失业率进行预测。但是该文中的计量模型没有考虑城镇就业的农民工问题和农村剩余劳动力。Giles等(2005)利用2002年CULS对5个有代表性的城市的失业率数据调查、及2000年的人口普查数据来估计和推断较早时期的真实失业率,首次运用了国际准则来定义失业率,并且将比较结果和其他的测量方法结合,得出了2002年我国五市真实失业率在14%的结论,也估计从1996年1月到2002年9月,失业率从6.1%上升到11.1%。
我国当前的失业率并没有覆盖国有企业的富余人员、国有企业的下岗职工和农村的富余劳动力(现在我们把这类群体化为隐形失业人口),在失业规模的计算上,应当将这些人员直接加总。宋丰景(2005)的这一观点与蔡昉(2004)的观点相悖,特别是在农村劳动力的统计口径上。由于估算方法和调查数据的来源不同,因此得出的结论也有很大的差距,最高的失业率达到20%以上。另外龚刚敏(2005)将失业率限定在城镇,同时只考虑失业(不论是否登记)以及下岗且未再就业的人员(不管是正式就业还是隐性就业),不考虑隐性失业;作者认为经济活动人口的定义即就业人口与失业人口之和,所以经济活动人口减就业人口应该就是失业人口;又因为在统计上并无农村失业人口一说,所以此失业人口数即城镇失业人口数。
杨娇(2008)将隐形失业分为城镇和农村两个隐形失业部分,农村隐形失业部分的计算和周长才(2001)的方法一致,城镇隐形失业部分又分为城镇企业隐形失业部分和国有企业隐形失业部分。前者采用工时法计算:

θ1为城镇企业隐形失业率,W1为无效工时,W为有效工时。后者的统计方法则是采用问卷调查。综合得到全国隐形失业人口,最终可以得到全国的整体失业率。
按照前面几位作者的观点,也就是把隐形就业人口统计出来就可以计算出真实失业的人口,再得到真实的失业率。但他们都有一个有待解决的问题,那就是经济活动人口应该怎么样定义范围,是按照国际的还是按照我们国家的?究竟哪一个更有道理呢?无论用谁的准则,无论用到谁的方法,都无法让大多数人满意,都会被质疑,这估计也是近些年关于失业率的论文数量下降的原因吧。
(二)间接变量法计算
通常来说,用来描述劳动力市场劳动供给的指标主要有三个:劳动参与率、就业率和失业率。所谓劳动参与率是指全部劳动年龄人口中经济活动人口所占的比例;就业率是指有工作的人占全部劳动年龄人口的比例;失业率则是指没有工作的人占经济活动人口的比例。根据上述定义,三者之间的关系可以用如下恒等式表示(Clark, K.和Summers, L.,1981):
(E/N)i=(E/L)i(L/N)i=(1-U/L)i(L/N)i
其中,E代表就业人数;U代表失业人数;L代表经济活动人口,即就业人数与失业人数之和;N代表全部劳动年龄人口;i代表不同的人口组。
利用相似的原理,李红松(2001)则采用Bruno的方法,即在研究以色列经济增长的影响因素时认为生产函数考虑了劳动力利用状况对产出的影响,考虑劳动利用率的概念,李在文中认为劳动力利用率反映一定时期投入的社会劳动力中实际被利用的比率,而隐性失业率表示投入的社会劳动力中未被利用的部分所占比率。

其中AY为隐性失业人口,AX为显性失业人口,AJ为就业人口。得到的1992到1998年的隐形失业率如图3-5所示,隐性失业率逐年上升,也从侧面表明劳动力失业问题越来越严重。

图3-5 李红松法计算的我国隐形失业率(1992—1998年)
相对于李红松(2003)的方法,周天勇(2003)则采取了一种创新的方法,即用适度城镇人口劳动参与率与实际城镇人口劳动参与率的比较来分析经济生活中的实际城镇劳动力失业率,其所谓的劳动参与率是研究时间段内每年的城镇从业之和与每年的城镇总人数之和的比值。但是在文章中说“估计失业情况和充分就业原则,将中国城镇人口劳动参与率常数确定为55%”,却没有给出为什么估计出这样一个确切数字,而不是更高或更低。作者的思想值得借鉴,认为城镇的失业率与城镇劳动的参与率呈相反的波动方向,从而来推算出真实的失业率。
另外,邹薇(2003)从三次产业的划分角度来分析真实失业率的计算方法,先提出了两点假设:第一,已知1978年的失业率为真实失业率,其中包括隐性失业率;第二,人均单位产量与1978年相比无变化。计算中使用了一个新的指标,即就业人口指数,以1978年的各行业人口数为基数100,行业产出额指数也为100,然后就计算出各年度相对就业人口指数和行业产出指数,从而可以得出当年的失业率。

λ为当年的失业率,λ(-1)为上一年的失业率,L为当年的就业人口指数,Y为当年行业产出额指数。左向旗(2006)通过改进邹薇(2003)的方法,认为将1978年的失业率作为基数是合理的,但是认为邹文中的假设二是有误的,因为单位产出和技术进步是密切相关的,同时还将受到单位劳动力拥有资本量的影响。根据索洛残值方法可以将非资本收入的份额计算出来。由当年的1减去失业率与前一年的1减去失业率等于非资本收入的份额,可以将当年的失业率计算出来。

其中α为非资本收入的份额,如果将两个公式结合起来看,也就是α=。在左向旗(2006)文中,α是一个由技术进步影响的数,由此可以看出改进的确是必要的。但是邹薇(2003)文中的假设一是否正确还有待考证。
利用中间变量,间接地去计算真实的失业率,也算是一种创新,但是这种创新的前提就是将现实中的其实很重要的情况,统统假设为不存在,完全理想化,得出的结果让人很难接受。
(三)计量分析方法计算
计量分析法在宏观经济中的应用越来越广泛,在失业率的估计与预测领域,也出现了很多有价值的成果和创新方法,比如因子分析、门限回归、ARMA模型、贝叶斯向量自回归模型等。但是计量的分析方法往往更加注重模型的建立、模拟和预测,对于如何反映当下真实的失业率的研究却很少。
因子分析是研究如何以最少的信息丢失,将众多原始变量浓缩成少数几个因子变量,以及如何使因子变量具有较强的可解释性的一种多元统计分析方法(李新蕊,2007),特定的因子载荷的绝对值具有一定的意义。隗斌贤(2000)先选取了9个指标,在进行因子分析以后,筛取了4个因子,其中包括劳动者能力这一项因子,定义劳动者能力因子在劳动者人数增量上的载荷的绝对值为劳动者发挥能力的大小比例,也就是去除显性失业与隐形失业后的就业部分比例。同时作者也用主成分法与因子分析的结果互相验证,得到的结果很相似,其平均结果为26%左右。在此基础上加上登记失业率则为当年的真实失业率。但是唯一的不足就是该隐形失业计算的结果里面包括了农村人口,而登记失业率只以城镇人口为基数,所以真实失业率无法直接相加而得。
针对以时间为序列的失业率,可以用相应的办法去研究。谭利等人(2009)以1978—2007年的城镇登记失业率为样本数据建立ARMA模型,对模型进行识别、估计、检验,在用2006—2008年数据进行验证预测时,发现预测精度都达到95%以上。所以运用此模型对未来5年进行失业率的预测。向东进等人(2010)利用我国的一些宏观经济指标和城镇登记失业率建立贝叶斯向量自回归模型(BVAR),并做脉冲响应分析,通过对比向量自回归(VAR)和贝叶斯向量自回归模型(BVAR)所做的失业率预测,发现BVAR比VAR得出的预测结果更好,然后对未来两年的失业率做了预测,失业率呈下降趋势。登记失业率的意义不大,估计的结果也没有什么意义。但是给我们提供了一个预测失业率的方法。张仁发等(2010)通过灰色关联模型分析影响城镇登记失业率的主要指标,发现GDP、第一产业增加值、CPI、商品零售价格指数、城镇人口总数5个指标显著影响城镇登记失业率。通过构建ARIMA-BP模型,分析城镇登记失业率与5个影响指标之间的关系,用1984到2008年的年度历史数据对模型进行实证分析,并分别建立了ARIMA(自回归移动平均)模型、BP模型与之进行比较。结果表明:ARIMA-BP模型显著优于ARIMA模型和BP模型。从预测结果看,其符合实际的程度很高。本模型的一个不足之处是只对短期的预测精度高,长期预测则难以达到预期效果。灰色关联分析是基于灰色系统理论的模型,由于我国统计数据具有较大的灰色性,采用灰色关联分析能够很好地处理统计数据的灰色性,这是一般数理统计方法所不具备的优势。通过该模型得出第一产业增加值和城镇人口数量都是对全国城镇登记失业率影响较大的因素,说明农村的发展水平会影响城镇登记失业率。这是这篇文章最大的亮点。赵青霞(2010)运用EVIEWS统计软件对我国城镇失业率变动的影响因素进行了实证分析,选择了城镇登记失业率、就业人口、城镇居民家庭平均每人全年消费性支出、国内生产组织增长率指标,通过建立向量误差修正模型(SVAR)对未来的失业率进行了预测。使用模型对2009年我国城镇失业率的预测结果是4.65%,而2009年我国城镇实际登记失业率是4.6%,取得了非常好的拟合效果,从而充分证明了我国城镇登记失业率与理论分析的各种因素确实存在长期稳定的影响关系。
林秀梅、王磊(2007)选取我国改革开放以来(1978—2004年)的年度GDP增长率与城镇登记失业率数据,使用HP滤波方法将我国的GDP增长率和失业率数据分解为趋势部分和波动部分,并应用门限估计法对变量的波动部分进行回归。结果发现,在以往的研究中被人们认为严重背离奥肯定律的我国经济增长和失业率的互逆关系,在我国存在非线性的表现形式,产出的变动可以引起失业率的非对称性的变动。在经济衰退期和扩张期,经济增长对当期就业的拉动效应存在符号上的差别。在经济处于衰退期(定义为产出缺口为负)时,GDP增长每增加(减少)1个百分点,可以拉动城镇登记失业率下降(上升)约0.10457个百分点;在经济扩张期(定义为产出缺口为正)时,经济增长与失业率之间存在正相关关系,GDP每增长(减少)1个百分点,城镇登记失业率上升(下降)约0.1065个百分点,同时前期的失业率对当期的失业率有显著的影响,影响系数为0.1105,前两期的失业率对当期的失业率也有显著的影响,影响系数为-0.182。龚攀峰(2009)也使用HP滤波技术,由失业率和经济增长率得到潜在失业率和经济增长率,也就是说HP滤波不仅可以做分解,还可以预测未来的失业率。经济运行具有周期性,那么和经济增长相关的失业率也应该具有周期的阶段性特征。林秀梅(2007)等人的研究给我们的启示是失业率的估算不能脱离具体的时期,计算应该有分类的分析。
Logistic模型回归是研究因变量为“二分类”或“多分类”观察结果与多个影响因素(自变量)之间回归关系的一种多变量回归分析方法,属于概率型非线性回归模型。黄波等(2010)采用蔡昉(2004)对经济活动人口的定义,选取了15个变量,利用排序Logistic模型对2009—2010年就业风险进行了预测。按照本书就业风险预测数据,比照1997年亚洲金融危机情形,2009年我国就业风险处于5级(即失业率大于6.454%)的可能性达到了95%以上,而2010年这一可能性则将近100%。最终的失业率结果为一个区间,也能对我们起一定的参考作用。虽然得不到失业率的确切数据,我们也可以得到一个范围。但是莫荣(2011)用Logistic模型在失业率与失业人数的预测上均不理想,这也就是说Logistic模型不能直接用,而是必须加以改进或与其他方法进行结合,才能得到误差较小的预测结果。
(四)系统工程方法计算
该类方法主要用在预测失业率上面,这一过程实质上是一个数据挖掘的过程。神经网络分类精确,鲁棒性好,在解决数据挖掘问题时具有一定的优势。随着在众多领域中的成功应用,神经网络技术成了一种有效的实用技术(Widrow B,1994)。张兴会等(2002)选取了23个和失业相关的主要变量,利用对角Elman神经网络对失业预测进行了研究,在数据前期处理过程中运用了数据插值与归一化处理,并利用我国的实际失业数据进行了仿真,取得了满意的结果。但插值法对模型的预测精度和泛化能力产生了负面影响。作为与对角Elman神经网络技术的比较,张兴会等(2002)使用递阶对角神经网络对失业率进行了预测,结果的绝对误差为0.3%,相对误差为6%,证实了神经网络在失业率研究中的可用性。神经网络的应用还有张仁发(2010)的ARIMA-BP模型,在这里就不再过多介绍。
但是人工神经网络模型可能存在过拟合或欠拟合问题、局部极小问题、收敛速度慢的问题、因参数过多设计困难问题等。所以,若能在理论上对上述问题有所克服,在实践中,失业率的预测精度还有进一步提高的可能。支持向量机作为一种新兴的机器学习方法,在一定程度上可以克服上述模型中存在的不足,在模式识别、回归估计等方面表现出了优于上述模型的性能(邓乃扬,2004)。核主成分是一种非线性特征提取方法,是主成分分析的一种非线性推广方法,通过一个非线性映射将数据从输入空间映射到高维特征空间,然后在高维特征空间进行通常的主成分分析,其中的内积运算采用一个核函数来代替基于类似的认识(Vapnik,1998;昊今培,2006)。同时向小东等(2009)认为在用支持向量机进行回归预测时,可考虑不同时期样本点的重要性,离预测期较近的样本点给予较大的权,从而可在标准支持向量机的基础上提出加权支持向量机模型。他选取了影响失业率的各指标,构建了基于核主成分分析与加权支持向量机的预测方法,并用此方法对福建省城镇登记失业率进行了预测研究。结果表明,由于所用预测方法考虑了指标的相关性及不同时期样本的不同重要性,并进行了简化降维,拟合及预测都达到了很高的精度,其相对误差都较小,说明用核主成分分析与加权支持向量机来预测失业率是可行且有效的,并可将其推广应用到其他领域的预测问题上。预测的结果误差只有0.36%,但是该文重点讨论的是一种方法,而不是具体失业率应该是多少。
数据包络分析法(DEA)作为一种非参数的统计方法,已成为经济、管理、决策分析等领域的一个重要方法。周晓津(2011)从人口流动的角度考察隐性失业(剩余劳动力)显性化(流动劳动力)与中国整体失业率,利用DEA(数据包络分析)对1978—2007年的中国整体失业率进行估计。在周文中得出了两条包络线:一条是剩余劳动力最大供给曲线,该包络线将所有流动劳动力高峰值包络在内;另一条是城镇常住劳动力供给曲线,该包络线将所有流动劳动力的低谷值包络在内。城镇常住劳动力不但包括城镇中原有的劳动力,也包含来自农村的永久移民劳动力。剩余劳动力最大供给曲线与实际流动劳动力值之差就是所要计算的城乡剩余劳动力,其与整体劳动力之比即为真实的失业率。作者认为中国经历了30多年的以市场化为导向的改革之后,无论是否将剩余劳动力计入失业人口,中国的整体失业率都保持在6%~10%。而王晓丹等(2011)也使用数据包络分析方法,运用效率评价及包络模型中生产前沿面投影的方法,估算中国目前已就业人员中存在的隐性失业,分析了1996—2008年各年中国从业人员的隐性失业规律和结构,得出中国隐性失业率较高、受高等教育的从业人员在增长但其效率尚未完全发挥等结论,并在此基础上对降低隐性失业率提出建议。得出隐形失业人数加上登记失业人数,就可以算出整体的失业率。
以上提到的关于失业率测算的几种方法,同样具有一定的局限性,如概念法中所涉及的概念的界定,间接变量计算法中前提假设条件的成立以及计量方法计量模型回归产生的偏误,系统工程方法的过拟合或欠拟合问题等,都说明这些方法并不能完美地计算出我国的真实失业率。如何更精确地计算出失业率的数据,仍然需要更多的研究,提出更好的测量办法。