人口学
上QQ阅读APP看书,第一时间看更新

第五节 人口资料的检验

一 人口资料检验的必要性及检验视角

性别与年龄是人口的两大自然属性,与之相应,性别与年龄结构成为人口的两大自然结构。人口学视角下,大多数人口问题实际上是一个人口性别、年龄结构问题或由人口性别、年龄结构所引发或者说产生的问题(陈友华、米勒·乌尔里希,2001)。而人口性别、年龄结构及其变化既是以往人口自身及社会经济变化的反映,也是决定未来人口发展趋势和社会经济发展的重要制约因素。人口未来生育水平、国民收入、产出结构和消费结构等都不同程度地受到这二者决定的人口基本结构的影响(崔红艳、徐岚、李睿,2013)。因而建立在人口性别、年龄维度下的正确人口数据就显得价值非凡:它不但有助于我们正确把握和理解人口问题的发生和发展过程,而且对国家的社会经济生活的规划起着基础性作用。

然而,从世界诸多国家或地区的历次人口普查实践中,我们发现人们受差异化的计数习惯、传统习俗、年龄优惠政策的诱导和其他因素等影响,不能如实呈报其实际年龄(查瑞传,1991),因而年龄的误报也成为人口普查及相关调查比如中国每五年一次的1%人口抽样调查。中最令人沮丧的问题之一(Ewbank, 1981)。不过,可喜的是,多年来世界各国的人口学者们一直在致力于发展出一些人口普查资料的检验指标,尤其是检验人口性别与年龄结构的指标,通过将其应用于现实和历史数据,帮助提高人口普查或相关调查的质量。比如,国内自20世纪90年代开始,就有诸多学者利用不同指数对中国的历次人口普查数据的质量进行评估(乔晓春,1992;查瑞传、乔晓春,1993;王洪春、王金营,1994;王广州,2004;郭琳、车士义,2008)。

二 年龄偏好指数

年龄偏好指数(Index of Age Preference)是较为简单、灵活的一个指标,它可以对任何年龄的堆积现象进行检验,但是在使用年龄偏好指数进行相应计算时有一个前提假设条件,即“年龄分布必须是均匀的”,各年龄之间没有明显的波动。在这种情况下,年龄偏好指数的计算公式为:

或者

这里为需要检验的a岁人口数。越接近100,说明数据质量越好,大于110说明堆积现象存在,大得越多说明堆积现象越严重;小于100说明堆积现象没有发生在该年龄,而是发生在该年龄以外的其他年龄,或者说对该年龄存在回避现象。

三 年龄准确性指数

我们知道,出生人数的不同会引起各年龄人口数量存在一定的差异,如果将几个年龄合为一个年龄组,就会在一定程度上消除年龄结构上的差异。年龄准确性指数(Age-Accuracy Index),确切地说,它是对5岁一组的年龄进行检验,是给定的年龄组除以该组以及其相邻的两个年龄组人数之和的1/3,再乘以100:

这里是以年龄a为下限,以5个年龄为一组的人口。假定年龄组人口分布是线性的,那么符合假定条件的情况下,AR的值应该等于100。

年龄准确性指数使用方便,可以对任意的年龄组进行检验,通过将几个年龄合并为一个年龄组在一定程度上消除了年龄结构的差异。对整个年龄分布准确性的检验,将通过计算各个年龄比与100的平均差得到。以中国2010年人口普查资料为例,其年龄准确性指数的计算步骤如下:第一步,计算并列出5岁一组的分性别人口数,采用的年龄区间为0~84岁,得到表2-1中的A、B列;第二步,分别计算各年龄组分男女的年龄比,得到表2-1中的C、E列;第三步,计算各年龄比与100的绝对离差,得到表2-1中的D、F列;第四步,计算跟年龄组离差之和;第五步,求平均离差(用合计值除以组数,则男性为99.76/15 =6.65,女性为88.43/15=5.90)。

表2-1 中国2010年人口普查年龄准确性指数的计算

资料来源:《中国2010年人口普查资料》。

年龄准确性指数的值越小,说明资料的质量越高。其具体的评价标准则是:年龄准确性指数小于3为误差较小,在3~7为可以接受,大于7为不可接受。此处通过相应计算得到的中国2010年人口普查中,男性的年龄准确性指数为6.65,女性为5.90,可见在此视角下,这次人口普查资料的质量在可以接受的范围之内。

四 惠普尔指数

惠普尔指数(Whipple's Index)则是对整体年龄结构在尾数为0或5的年龄上是否存在偏好进行综合检验的指数。惠普尔指数对总体年龄结构的检验一般限定在中青年人的范围内,这是因为一般来说,少年儿童对年龄的概念并不清楚、老年人由于记忆不好容易将年龄记错,所以少年儿童和老年人申报年龄的不准确在逻辑层面是不能认为其是有意的或者习惯性的偏好所致,从而惠普尔指数对这两个年龄段的检验意义不大。惠普尔指数检验时年龄范围的选定可以由分析者自己决定,但通常选择的是在23~62岁这一区间。

年龄堆积最容易出现在以0和5为尾数的年龄,如果要检验以0和5为尾数的年龄是否存在堆积,则用惠普尔指数:

正常情况下,WI值的变化范围为100~500。如果计算出来WI=100,说明年龄分布均匀,普查数据在年龄层面不存在堆积现象;如果100<WI<110,可以认为无明显偏好,普查数据在年龄这个视角下质量较好;如果110<WI<130,说明存在年龄偏好,但仍然处于可以接受范畴;如果WI≥130,则说明年龄偏好比较严重,普查数据在年龄这个视角下是不可接受的;如果WI=500,说明各年龄人口都集中在以0和5为尾数的年龄上。当然,有时也会出现WI<100的情况,这就说明对0和5存在偏好的假定有问题,这往往也是表明以0和5为尾数的年龄上不存在堆积,甚至可能存在有意回避申报以0和5为尾数年龄的情况。

以《2010年中国第六次人口普查资料》为例,本书计算了相应的惠普尔指数。计算结果显示,中国的男性人口的惠普尔指数为98.91,女性为98.77(见表2-2)。这样的计算结果说明2010年人口普查资料在0和5为尾数的年龄上不存在堆积。

表2-2 2010年人口普查全国人口惠普尔指数

资料来源:《中国2010年人口普查资料》。

实际上,惠普尔指数的应用相对较多。比如,王洪春和王金营(1994)根据惠普尔指数对河北省第四次人口普查数据质量进行分析并发现河北省第四次人口普查质量相对较高,但女性年龄数据质量较男性的略差。此外,很多学者在检验年龄准确性时也用到惠普尔指数(乔晓春,1992;于新民、董世和,1994;郭琳、车士义,2008),感兴趣的读者可以在国家哲学社会科学学术期刊数据库(www.nssd.org)免费获取相关文章进行阅读。

尽管惠普尔指数的应用相对广泛,其检验依然有着苛刻的前提要求,那就是该指数的计算要求人口年龄呈线性分布,而且该指数容易掩盖以0和5为尾数的年龄堆积的差异,甚至出现两者效应相互抵消的现象(巫锡炜、甘雪芹,2013)。

五 迈耶斯指数

前文谈及的年龄偏好指数只能检验某一特定年龄人口堆积现象,而惠普尔指数克服了这一缺陷,可以从总体上检验年龄在某一特定结尾数字上的堆积。从年龄结构的总体来看,如果存在0或5年龄上的多报,则必然造成以某些数字结尾的年龄上的少报,而且很难消除在其他年龄上也存在多报或者少报的现象。这样,年龄申报的不准确,反映在年龄结构上会出现比较有规律的某一年龄的人多,而其他年龄的人则很少的现象,从而导致人口年龄结构的异常。这种总体上的年龄结构异常,用惠普尔指数是难以进行判断的。对此,罗伯特·迈耶斯于1940年提出了一种检验年龄偏好的迈耶斯指数(Myer's Index)。

迈耶斯指数的原理为:将具有同一位数的各年龄人口相加,由于有10个尾数从而得到相应的10组数据,每一组数据的值大体为总人口的1/10,这里假定当每组数据的值正好等于0.1时,年龄结构是规范的,不存在年龄偏好。与1/10的偏移程度越大,说明年龄偏好越严重,资料的质量越差。以2010年人口普查数据为例,迈耶斯指数具体计算步骤则为:第一步,在给定年龄区间(10~89岁和20~89岁)将具有统一位数(0, 1, 2, 3, …, 9)的年龄相加,得到表2-3中的A、B列;第二步,将A、B列分别乘以相应的权数(C、D列的数值),将乘积相加得到混合人口,即E列,并计算各值之和得到混合人口合计值;第三步,计算各具有相同尾数年龄的混合人口的百分比分布,即E列中各值分别除以混合人口合计值,得到F列;第四步,将F列的数字减去10.00,并取其绝对值,得到G列,求G列中各值之和;第五步,将合计值除以2,即迈耶斯指数的值。

表2-3 2010年第六次人口普查中国人口迈耶斯指数的计算

资料来源:《中国2010年人口普查资料》。

迈耶斯指数的变动区间为0~90,它的值越接近0,说明年龄堆积的程度越小,人口普查资料的质量越好。一般来说,迈耶斯指数小于5,可以认为人口普查资料质量较好;在5~10,认为人口普查资料质量可以接受;大于10则认为人口普查资料质量不可以接受。

迈耶斯指数的特点是:不直接计算每一数据占总量的百分比,而是通过构造混合和的方法计算各组的百分比分布。混合和是根据不直接受年龄误报影响的生命表的静止人口(Lx)构造的。如果不适用混合和,起始年龄的选取会在很大程度上影响指数的计算结果,而且在死亡率的影响下人口分布随年龄的增长而不断下降,使人口分布不均匀。通过构造混合和,各组的人口分布基本相等,这样才可以作为检验年龄正常与否的标准。

迈耶斯指数以规则的静止人口年龄结构作为判定标准。但是由于人口年龄结构是由出生、死亡和迁移决定的,特别是各年出生人数的不同,导致人口年龄结构出现不同程度的波动。年龄结构的不均衡可能是由申报中的数字偏好,也可能是由真实的年龄波动引起的,因此精确地判定人口的年龄偏好是不可能的,尤其对那些人口年龄结构原本就很不规则的国家,使用检验年龄偏好的方法时更要注意。

六 联合国综合指数

1.传统的联合国综合指数

联合国综合指数(United Nations Age-Sex Accuracy Index)对年龄使用分组数据,从0岁到74岁分为15个组,包含性别比分析和年龄比分析这样两部分。

在性别比分析中,首先计算性别比率,即

5SRa表示以年龄a为下限的5岁组人口数的性别比,即(a, a+5)岁组人口的性别比;表示(a, a+5)岁组男性人口数。表示(a, a+5)岁组女性人口数。

然后计算相邻组性别比率离差的绝对值,进行加总平均后得到性别比指数:

需要指出的是,在计算性别比指数时,对相邻两组性别比率进行相减,因而第一组(即0~4岁组)没有该值,故最后是14个年龄组的加总平均。

在年龄比分析中,分性别进行。以男性为例,首先计算年龄比:

然后计算各年龄组年龄比与100离差的绝对值,最后进行加总平均得到男性年龄比指数:

同样,在计算年龄比指数时,由于分母中包含相邻两个组的数值,因而第一组(0~4岁组)和最后一组(70~74岁组)无法计算该值,最后只有13个年龄组的加总平均。

在计算出性别比指数和年龄比指数后,联合国综合指数的计算公式则为

这里以2010年第六次全国人口普查汇总数据为例,介绍联合国综合指数的计算过程(见表2-4)。

当联合国综合指数小于20时,则说明人口普查资料的质量非常好;在20~40时,说明人口普查资料的质量可以接受,但是不够准确;如果结果大于40,那么人口普查资料的质量非常不准确,不能接受(Yang et al. , 2005)。根据第六次人口普查汇总数据计算的联合国综合指数为21.15(见表2-4),表明2010年的人口普查资料的质量资料结果是相对较好,可以接受。这个结果与学者们使用其他方法检验的结果是一致的,比如,巫锡炜和甘雪芹(2013)利用惠普尔修正指数对年龄准确性的检验同样发现第六次人口普查年龄数据的质量具有较强的有效性。

表2-4 2010年第六次人口普查中国人口联合国综合指数的计算

资料来源:《中国2010年人口普查资料》。

2.传统的联合国综合指数的不足

(1)5岁组“扩大”联合国综合指数结果

从前面的介绍中我们知道,联合国综合指数是在按年龄比指数基础上纳入性别视角,并以5岁组为单位计算。年龄比指数采用5岁组的初衷是“在一定程度上消除出生人数不同带来的年龄结构上的差异”(查瑞传,1991),而实际上以5岁组计算却无意之中“扩大”了年龄比指数。以第六次人口普查全国0~14岁男性人口为例,按单岁组计算,0~14岁年龄比指数的均值为2.29,而按5岁组计算则为5.60,后者是前者的两倍之多。同样,对性别指数的计算也有相似的发现。由此可见,根据5岁组计算出的偏高的联合国综合指数,并不能充分说明数据的真实质量。

(2)流动人口“扭曲”联合国综合指数

前文对联合国综合指数进行了介绍,并利用其对第六次人口普查时人口性别、年龄结构进行检验,结果与学者们用其他方法得到的结果是一致的。那么在对分省数据中性别年龄结构的检验如何呢?

表2-5和图2-5为本书根据2000年和2010年人口普查数据计算的各省(自治区、直辖市)联合国综合指数。从图2-5中我们可以清晰地看到,尽管各省份2000年和2010年普查人口年龄性别数据质量均在可接受范围之内,但不可掩盖的是很多省份计算出的联合国综合指数偏高,中西部欠发达地区和东部发达地区均是如此。例如,流动人口集中的京津冀、长三角的上海以及珠三角的广东,又如劳动输出较多的安徽、河南、湖南、重庆等中西部地区。

表2-5 2000年、2010年基于各省份人口普查数据的联合国综合指数(不含港澳台)

资料来源:《中国2000年人口普查资料》《中国2010年人口普查资料》。

图2-3 基于各省人口普查数据的联合国综合指数:2000年、2010年(不含港澳台)

资料来源:《中国2000年人口普查资料》《中国2010年人口普查资料》。

根据对全国数据和分省数据计算的联合国综合指数可以判断,分省数据计算的联合国综合指数偏高的结果不仅仅是数据本身的问题,也受人口的性别、年龄结构的影响。这不由让我们想到,人口流动对流入地和流出地性别、年龄结构的影响。我们知道,中国的人口国际迁移相对较少,而国内人口流动却势不可当,尤其是青壮年劳动力人口的流出,对流入地和流出地人口的年龄结构都会带来较大的影响,同时不同产业结构对不同性别人员的不同需求也会影响性别结构。因而从全国层面而言,人口的迁移流动对各地区的年龄性别结构不会有太大的影响,而各省则会受很大的影响。

为进一步分析人口流动对联合国综合指数的影响,本书选择联合国综合指数较高且跨省流入人口规模较大的北京、天津和上海三个直辖市进行计算需要指出的是,后文的分析中除这三个直辖市外还选取了跨省流出人口规模较大的安徽、河南和湖南三个省,但由于第六次人口普查资料中无法获取各省分年龄、分性别的跨省流出人口数据,因而此处只对北京、天津、上海进行分析。。计算发现,常住人口减去跨省流入人口后计算的联合国综合指数低于常住人口的联合国综合指数,北京、天津、上海的联合国综合指数分别下降16.25%、24.38%和13.18%。可见,人口流动对其联合国综合指数有较大的影响(见表2-6)。

表2-6 人口流动对联合国综合指数的影响(2010)

资料来源:根据北京、天津、上海2010年第六次人口普查资料计算。

3.修正的联合国综合指数

如前文所述,一方面,按照5岁组计算会带来年龄比指数的“扩大”;另一方面,流动人口年龄相对集中,主要是集中于劳动力年龄段的几个年龄组,这就带来按照年龄组计算年龄比指数不准确的问题存在。而联合国综合指数的计算正是按照分组年龄数据计算的年龄指数。相比而言,尽管流动人口集中于某几个年龄组,但流动人口的单岁组年龄结构中相邻年龄组之间的差异相对平缓,因而以单岁组计算年龄指数的差异也相对平缓。同时,单岁组计算时分母相应增多,也稀释了流动人口集中带来的影响。

对此,笔者曾在《中国人口科学》发表专门文章提出了修正的联合国综合指数的计算方法,即以单岁组来计算年龄比。具体而言,其计算方法和过程与之前联合国综合指数的计算是一致的,只是均以单岁组为单位进行分析计算。同样,这里选择年龄段为0~74岁的人口选择年龄段为0~74岁,一方面是为了与之前联合国综合指数的比较保持年龄的一致,另一方面是考虑到高龄组人口数量相对少,分布不均。。需要指出的是,性别比指数的计算中分母相应地变为74,而年龄比指数的计算中分母变为73。

相应地,性别比指数变为:

年龄比指数变为:

根据前文的思路,首先计算全国数据的修正联合国指数并与联合国指数进行比较,分析5岁组带来的年龄比指数的“扩大”对联合国综合指数的影响。接下来,选择人口流动相对明显的地区作为分析单位进行分析,通过对其户籍人口与常住人口计算传统联合国综合指数与修正联合国综合指数。如此,通过这两种口径下人口的两个指数的比较来对比传统的与修正的联合国综合指数,以对修正联合国综合指数的效果进行检验。

(1)应用全国数据检验修正联合国综合指数

在2010年全国数据计算修正联合国综合指数(见表2-7)中我们发现,根据单岁组计算的修正联合国综合指数低于按5岁组计算的联合国综合指数,各级地方均是如此。

表2-7 基于全国数据计算的修正联合国综合指数(2010)

资料来源:《中国2010年人口普查资料》。

具体而言,按单岁组计算的性别比指数和年龄比指数均低于按5岁组计算的结果。尽管目前无法给出使用修正联合国综合指数判断数据质量的值域范围,但是从二者的比较中可以验证前文指出的5岁组计算扩大了联合国综合指数的事实。

(2)应用省级数据检验修正联合国综合指数

在检验修正联合国指数对消除流动人口影响时,需要以人口流动相对明显的经济发达省(自治区、直辖市)及人口流出较多省份为例。根据2010年第六次人口普查数据,跨省流入人口居于全国前七位的为广东、浙江、上海、江苏、北京、福建、天津,跨省流出人口居于全国前七位的分别为安徽、四川、河南、湖南、湖北、江西、广西,结合其联合国综合指数及数据的可得性,这里选择三个人口流入地(北京、天津、上海)和三个人口流出地(安徽、河南、湖南)为例验证修正联合国综合指数(见图2-6)。

图2-4 2010年部分省/直辖市跨省流动人口规模及比重

资料来源:《中国2010年人口普查资料》。

在计算传统与修正联合国综合指数之前,这里先根据前面提到的年龄比指数公式来计算所选的人口流入较多的北京、天津和上海在第六次人口普查时流动人口较为集中的20~40岁年龄段常住人口以及常住人口减去跨省流入人口的年龄比指数。结果表明,不论是常住人口还是常住人口减去跨省流入人口的年龄比指数,均是以5岁组为单位计算出的年龄比指数高于以1岁组为单位计算的,由此可以判断,以5岁组为单位计算联合国综合指数会由于人口数的堆积而无形中扩大了年龄比指数。同时对常住人口及常住人口减去跨省流入人口的年龄比指数的比较发现,后者低于前者且前者的5岁组与1岁组年龄比差异值低于后者,这个差值即人口流动带来的绝对影响,与年龄分组的影响相比要小很多(见表2-8)。这在一定程度上说明,笔者前面提出的修正联合国综合指数在分省数据尤其是流动人口较多的省级数据的应用会更为有效。

表2-8 京津沪20~40岁年龄比指数及影响(2010)

资料来源:《中国2010年人口普查资料》。

接下来我们根据所选六个省(自治区、直辖市)第六次人口普查数据对联合国综合指数及修正联合国综合指数进行对比分析。前面的分析中已经得到这几个省(自治区、直辖市)的联合国综合指数均在30~40,说明数据质量在可接受范围内,但相对较差。而随着社会经济的发展,人们年龄的偏好非常小,这正与前文提到的人口流动有很大的关联性。就此逻辑,接下来用前文提出的修正联合国指数进行下一步分析。

根据修正联合国指数计算得出,这六个省(自治区、直辖市)的常住人口修正联合国综合指数在13~17,远低于联合国综合指数。可见,修正联合国综合指数在排除流动人口影响方面有很大的作用,这进一步说明修正联合国指数在人口流动加速的当今中国用于分析人口年龄、性别结构,相比于联合国指数有较大的质量提高(见图2-5)。

图2-5 2010年部分省份联合国综合指数及修正联合国综合指数

资料来源:根据各省(自治区、直辖市)2010年第六次人口普查资料计算。

为了检验修正联合国综合指数对排除流动人口影响的作用,此处比较分析北京、天津、上海市常住人口及常住人口减去跨省流动人口后的联合国综合指数和修正联合国综合指数。结果发现,常住人口减去跨省流入人口后计算的修正联合国综合指数与常住人口的修正联合国综合指数很接近,三市分别为13.05、13.38、13.22。其中,上海市常住人口减去跨省流入人口后计算的修正联合国综合指数反而低于常住人口的修正联合国综合指数(见表2-9)。可见,人口流动对修正联合国综合指数的影响程度远低于联合国综合指数。这再次验证修正联合国综合指数排除人口流动影响的作用。

表2-9 人口流动对联合国综合指数及修正联合国综合指数的影响

资料来源:根据各省(自治区、直辖市)2010年第六次人口普查资料计算。

为更好地检验修正联合国指数,这里将根据这六个省(自治区、直辖市)常住人口年龄数计算的联合国综合指数和修正联合国综合指数与迈耶斯指数检验结果进行比较分析。通过计算,获得这六个省(自治区、直辖市)常住人口的迈耶斯指数均小于5,属于数据质量较好的范围之内。其中,上海为2.75,湖南为3.65,安徽为3.79,河南为4.03,天津为4.76,北京为4.82。修正联合国综合指数分析结果显示数据质量相对较好,也就是说,修正联合国综合指数的结果与迈耶斯指数的结果更为接近。

七 一般调查资料的检验

人口普查资料是人口学研究中最全面、最权威的数据,也是人口学者们经常使用的数据。除此之外,学者们也经常直接进行调查获得一手数据或者使用他人的二手数据进行分析,利用这些数据时也需要进行必要的处理,包括数据的审核和筛选等检验,在检验后再进行相应的分析使用。数据的整理是指使用数据之前对数据进行必要的处理,包括数据的审核、筛选和排序等。这样才可以保证数据的质量,并且选择符合研究要求的数据,为数据的使用与分析打下坚实并可靠的基础。

1.数据的审核

数据审核是数据整理的第一步工作,通过审核检验数据质量,为进一步的数据整理和分析打下基础。数据的审核是指从数据的完整性、准确性、适用性及时效性等方面对数据进行检查,保障数据质量,为之后进一步的分析打下基础。

完整性主要是检查数据是否完整,即调查单位是否全面覆盖,调查项目是否全部回答等,做到“总体不漏人、个体不漏项”。比如一般的人口普查中,就需要指导员对每一份普查表进行详细核查以保证数据的完整性。准确性主要是检查数据是否真实、准确,即数据是否真实反映实际情况,数据是否有错误。具体来说,包括逻辑检查和计算检查两种方法,逻辑检查是检查数据是否符合逻辑、常理,前后是否自相矛盾,主要用于社会科学四种数据类型中的定类和定序数据的审核;计算检查是检查数据计算方法和结果是否准确,主要用于四种数据类型中的定距和定比数据的审核。例如,被调查者在前面回答是“男性”,后面则填写“第一次怀孕年龄”,显然前后矛盾。适用性是指审核数据的来源、口径、背景等是否符合研究需要,若不符合研究需要则不应该生搬硬套。时效性则是审核数据是否滞后,是否失去研究意义。在社会研究,尤其是政策研究中,一般应使用最新的数据,以保证研究具有时效性。例如,现在将1990年第四次人口普查数据作为流动人口的受教育程度进行分析显然该数据不具备时效性特点。

对于原始数据,只需从完整性和准确性两方面进行审核。而对于二手数据,由于其来源多种多样,并不是根据自己研究需要进行收集的,因而在使用时不仅需要进行完整性和准确性审核,还需要进行适用性和时效性的审核。

2.数据的筛选

数据的审核是数据整理的第一步,审核过程中发现的有些错误可以及时纠正,而有些则无法弥补。同时,二手数据中有些数据并不符合自己研究的需要,这就要对数据进行筛选。数据筛选是指将不符合要求的数据或者有明显错误的数据剔除掉,或者将某些不符合研究需要的数据剔除掉,只留下符合需要的数据,使数据经过筛选后其结果符合研究需要,为以后研究打下良好基础。例如,某项调查对调查对象的界定为“20岁以上妇女”,而想要分析已完成生育过程的妇女的生育经历,就需要从中筛选出“49岁以上妇女”,将其他妇女剔除掉。数据的筛选可以通过常规的统计软件,比如SPSS、Stata等进行。

这里需要提醒的是,一般的抽样调查数据在年龄、性别等基础的人口学变量层面会具备代表性,所以当以这些变量进行数据筛选时,可以直接进行,但是当以其他一些变量为基础进行数据筛选时,就需要分析筛选后的数据是否还是一个随机样本,即可能存在选择性偏误(Selection Bias)的问题。具体可查阅诺贝尔经济学奖获得者James Heckman在相关领域的论文或者本书作者发表在2014年第1期《学海》上的文章《中国未婚青年首次性行为时的避孕选择——基于赫克曼选择模型的分析》,该文对其有系统阐释。

3.数据的排序

数据审核和筛选完之后,就可以将数据进行排序,以便更好地发现数据的某种趋势或特点,同时也更好地发现解决问题的方法。数据排序是指按照一定顺序对数据进行排列,为数据分组、数据分析提供方便。有时候数据排序本身就是分析的目的之一,例如将全国各省份按照平均预期寿命进行排序,这样各省份既可以看出自己的排序,又可以了解与其他省份在生活水平、医疗水平等方面的差异。不同数据的排序标准不同,对于分类数据,排序方式多种多样,可以按照字母顺序进行排序,例如,按姓氏首字母对姓名进行排序,同时也可以按照其姓氏笔画进行排序。而对于数值型数据,则只有递增和递减两种排序方式,例如,可以按照收入从高往低进行排序,也可以从低往高排序。