2.3.3 城乡综合基尼系数的测算方法
相比泰尔指数,基尼系数含义更加明晰、直观,但不足之处在于:当只有城乡分离的分组数据,且城乡收入存在重叠时,基尼系数就不能完全分解为城镇内部不平等、农村内部不平等和城乡间不平等的形式,而是会产生一个剩余项。这就使得全国基尼系数和城乡间不平等的测算出现偏误。因此,一些研究从不同视角出发对城乡综合基尼系数(也称城乡合一基尼系数、全国基尼系数)的测算进行改进,这里主要对这些方法进行梳理和比较。
中国城乡综合基尼系数的测算是在住户调查数据约束下产生的。首先来看城乡居民收入数据的类型,主要有两种:一种是微观个体数据,如国家统计局调查总队的住户调查数据、CHIP、CFPS等;另一种是分组数据,也就是统计年鉴上城镇居民、农村居民独立的分组数据。微观个体数据的好处在于,只要样本具有足够的代表性,且样本在城乡之间的分布与总体一致,那么就可以由样本的基尼系数推断总体(全国)基尼系数。这种情况下不会产生城乡综合基尼系数的计算问题,采用图2.1中四种微观数据计算方法的任意一种就可以。然而,国家统计局住户调查的微观数据是不对外公布的,只有间断性几年的CHIP和CFPS等的数据,这对于研究城乡收入差距的长期趋势是非常不利的。一般的研究者只能从《中国统计年鉴》上获得城镇居民、农村居民各自的分组数据,由于组数较少,组内差距“被平均”了,得到的城乡综合基尼系数通常是被低估的,组数越少被低估程度越严重。
图2.1 城乡综合基尼系数计算方法的演化
而且采用微观数据和分组数据得到的城乡子群分解结果也会有差异。陈光金(2010)指出,凡是采用分组数据来进行城乡收入差距的分解,那么更容易得出群间差异对全国收入差距贡献更大的结论;如果采用微观数据,那么更容易得出群内差异对全国收入差距贡献更大的结论。原因在于:采用分组数据计算收入差距时,组内差距被忽略,城乡内部差距被低估,从而更容易得出城乡间差距贡献更大的结论;而采用住户调查的微观个体数据进行计算时,组内差距未被忽略,相比前者,城乡内部差距会更高,从而得出城乡内部差距贡献更大的结论。
以下将重点讨论城乡综合基尼系数测算和分解中存在的问题。概而言之,城乡综合基尼系数测算与分解是在中国现有统计方式和数据可获得条件下的一个特殊问题,主要表现为如何在仅有城镇和农村独立分组收入数据的约束下更好地测算全国基尼系数及城乡间基尼系数。已有的测算方法可以分为两类:子群分解法和函数加总法,如图2.1所示。子群分解法是运用子群分解“逆运算”的思想,将各个收入组看作一个“子群”,或将城镇、农村看作两个不同的“子群”,进而估算城乡综合基尼系数的方法。但子群分解法无法解决因城乡收入数据重叠而造成的偏误以及由于分组数据忽略组内差异而产生的低估。函数加总法解决了这两个问题——通过拟合得到城镇和农村收入分布函数或密度函数,然后加总得到全国的收入分布函数或密度函数,从而估算城乡综合基尼系数。
分层加权法(陈宗胜,1991)和城乡加权法(向书坚,1998;陈宗胜,2000,2002)是子群分解法的典型代表。分层加权法是陈宗胜(1991)从1982年世界银行关于中国问题的报告中概括出来的一种计算全国基尼系数的方法。这种方法归根到底仍然是利用离散分组数据的基尼系数计算公式,只不过在计算前先要做两项工作:一是将城镇居民和农村居民的分组收入数据按照各个组的平均收入重新进行排序,得到全国各收入层的数据;二是将各组的收入份额和人口份额换算成全国各收入层的收入份额和人口份额。可以看出,这里的“分层”实际上就是“分组”的意思;若将每个“组”看作一个“子群”的话,那么分层加权法便是一种子群分解法。向书坚(1998)认为分层加权法计算较复杂,因而借鉴Sundrum(1990)使用过的基尼系数两子群分解公式注2来计算全国基尼系数,并称这种方法为分组加权法。这里的“组”是指城镇和农村两个“大组”,但现在一般将城镇和农村称为两个“子群”。因此,分组加权法也被称为城乡加权法。
注2Sundrum(1990)的计算公式为:。式中:p1和p2分别代表穷人和富人的人口份额;μ1和μ2分别代表穷人和富人两个群体的收入均值;G1和G2分别代表穷人和富人内部的基尼系数。
然而,无论是分层加权法还是城乡加权法,要准确测算全国基尼系数,各子群之间的收入就不能重叠,否则在基尼系数分解公式中会出现剩余项(Cowell,2000)。值得一提的是,为避免子群间收入出现重叠,Sundrum(1990)将人口分为富人和穷人两个子群来进行基尼系数分解。在Sundrum之前,Bhattacharya和Mahalanobis(1967)、Rao(1969)、Pyatt(1976)、Mookherjee和Shorrocks(1982)已对基尼系数的子群分解式进行了讨论,虽然他们对剩余项的归并和群内不平等权重的处理略有不同,但都指出基尼系数的子群能否完全分解成群内差异加上群间差异的形式,取决于子群间收入是否出现重叠。Shorrocks(1980)将这种分解净尽的性质称为可加可分解性(additive decomposability),即总的不平等可以表达成群内(within-group)不平等和群间(between-group)不平等之和的形式。不满足可加可分解性的指标在子群分解时就会出现第三项——剩余项。数据重叠越严重,剩余项越大。
需要说明的是,此处存在两种数据重叠类型。如果把城、乡不同收入组之间的数据重叠,即由于将组内平均数作为排序依据所引起的交叉重叠称为“第Ⅰ类数据重叠”注2a,那么,城、乡两个子群之间的收入数据重叠,即由于城镇最低收入低于农村最高收入引起的重叠则可称为“第Ⅱ类数据重叠”。显然,分层加权法中出现的是第Ⅰ类数据重叠问题,而城乡加权法中出现的是第Ⅱ类数据重叠问题。
注2a例如,若代表农村某一组的平均收入,代表比只高一个位次的城镇收入组的平均收入,那么和在数值上会呈现差异。然而,由于可能代表的是500—2000元的分组,而代表的是1000—2100元的分组,这时两个组的微观收入就会出现重叠。
陈宗胜(2000,2002)在与李实(2000,2002)的学术争论中曾力挺城乡加权法,认为它能够进行准确度较高的估算。陈宗胜(2002)认为,虽然城乡收入数据的重叠使得城乡加权法产生低估问题,但“如果是做趋势比较,只要保持资料口径的前后一致,就不会影响结论的准确性”。然而,不同年份中城乡收入的重叠程度可能是不一样的,那么采用城乡加权法计算的城乡综合基尼系数所产生的误差也就不稳定,难以在趋势分析中系统性地剔除。周文兴(2003)也强调,“重叠”项不可轻易忽视,一定要慎用城乡加权法。笔者也赞成应慎用城乡加权法,原因在于:当前城镇和农村居民的收入重叠程度较大,不能忽视其对城乡综合基尼系数测算产生的影响。事实上,陈宗胜和周云波(2002)自己也已发现,当采用相同来源的数据,且处理过程相同时,用城乡加权法计算的全国基尼系数都要小于用分层加权法计算的结果。
针对城乡居民收入数据的重叠问题,学者们对全国基尼系数测算方法的改进做了不同的尝试。董静和李子奈(2004)在假定城镇居民、农村居民的收入都服从正态分布的基础上估计了城乡加权法中剩余项的具体形式,在一定程度上矫正了城乡加权法的低估问题。但众所周知,收入分布通常呈现出厚尾的特征,是一种非对称分布,因此,用对称的正态分布假定并不恰当。
然而,一些学者对采用各子群人均收入的函数来表征群间差异提出了质疑(Dagum,1980; Blackorby, et al,1981; Gastwirth,1985;Yitzhaki,1994)。对此,洪兴建(2008)通过引入“相对剥夺”概念重新定义了群间不平等,进而在基尼系数子群分解公式中消除了剩余项注3。但是,洪兴建的群间不平等实际上是一个“群外不平等”指标,也就是将城镇的每一组收入与农村的每一组收入进行比较,或者将农村的每一组收入与城镇的每一组收入进行比较。在这种情况下,当城乡收入分布完全无差异时,群间不平等并不为零。而且,他在实证计算中由于运用的是分组数据,所以在解决第Ⅱ类数据重叠问题的同时又产生了第Ⅰ类数据重叠问题。其实,洪兴建所提出的基于相对剥夺视角的方法应当采用微观数据,但若拥有了微观数据,则可以直接计算城乡综合基尼系数。
注3洪兴建(2008)采用的分解式为:G=νuθuGuu+νrθrGrr+νrθuGur+νuθrGru。式中:νu代表城镇的人口份额;νr代表农村的人口份额;θu为城镇收入份额;θr为农村收入份额;Gur和Gru是城乡间不平等指标;Guu是城镇内部的基尼系数;Grr是农村内部的基尼系数。
在函数加总这个方向上,程永宏(2006)和王祖祥(2006)分别从分布函数加总和密度函数加总的角度,处理了城乡收入数据的重叠问题。可惜的是,既有的函数加总法却带来了对全国最高收入和各分组组内最高收入依赖的新问题,对全国最高收入的估计误差,以及由组内平均收入代替组内最高收入产生的分布函数、密度函数的估计误差,都会影响城乡综合基尼系数的测算注4。
注4程永宏(2006)计算基尼系数的公式为:。式中:T 为最高收入。王祖祥(2006)计算基尼系数的公式为:。收入的定义域不应该是[0, +∞),所以王祖祥的计算公式也会用到最高收入。