三 调查与抽样
在上述理论判断的基础上,我们在2012年实施了“中国社会态度和社会发展”问卷调查。在这次问卷调查中,我们设计了专门的题器用于尔后制作量表和测量一个社会的社会景气。这次调查所拟推论的总体是中国城镇地区居住的16岁及以上的人口,具体操作定义为中国大陆直辖市、地级市、县级市中居住在社区(居委会)辖区中的16岁及以上人口。抽样方式采取的是多阶抽样设计,其中县级行政区划(市辖区、县级市)为一级抽样单位(primary sampling unit,PSU),社区(居委会)为二级抽样单位(second sampling unit,SSU),家庭户作为三级抽样单位,最终抽样单位为个人。考虑到本次调查所需要的估计精度、调查抽样的设计效应以及调查实施中的回答率,最终确定的样本量为8100。此样本量在设计效应为4的前提下,在95%的置信水平下,抽样的绝对误差在2.2%以内;在设计效应为8的前提下,在95%的置信水平下,抽样的绝对误差在3.1%以内;在设计效应为12的前提下,在95%的置信水平下,抽样的绝对误差在3.8%以内。整个调查在2012年4月到5月间实施,最终回收有效问卷8070份。
我们所采用的多阶段复杂抽样的具体操作程序如下:
首先,我们要求具体的抽样流程应兼顾便利调查操作与缩小抽样误差。在此原则下,我们确定PSU的抽取数量为60。然后,在抽中的PSU中随机抽取9个社区(居委会)。之后,在抽中的社区(居委会)中按定距方式抽取15个家庭户,在抽中的家庭户中由访问员采用随机数表(Kish表)在16岁以上的家庭成员中抽选一人作为被调查对象。
图2.6 抽样流程说明
(一)第一阶抽样:PSU (市、区)的抽取
根据《中国统计年鉴(2011)》,我国共有市辖区853个,县级市370个,因此,PSU抽样框中共包括有1223个单位。PSU (市辖区和县级市)抽样框来自于《中华人民共和国全国分县市人口统计资料(2010年)》(公安部治安管理局编)。我们据此按照PPS原则(与人口规模成比例)从中抽取出了60个市区作为PSU。
图2.7 PSU (市、区)的地理分布图
我们从全国所有的市辖区和县级市中按照PPS原则抽取出了60个市、区。这60个市、区在全国的地理分布参见上图。图中各省、市、自治区的灰度表示了抽取到的PSU数量。PSU样本数量较多的省份包括山东(6个)、江苏(6个)、湖北(6个)、广东(5个)。
(二)第二阶抽样:SSU (社区居委会)的抽取
抽中的PSU所辖的社区(居委会)构成了二级样本框。这些信息并没有现成的数据来源提供,由课题组独立取得。我们按简单随机原则在抽中的60个市、区的所有社区居委会中抽取9个社区居委会作为SSU,最后共抽取了540个社区居委会作为SSU。
(三)第三阶抽样:TSU (户)的抽取
抽中的社区(居委会)包含的家庭户、集体户以及各类集体居住点构成第三级样本框。第三级样本框中的信息由抽样员在当地采集。“居内抽户”采用系统抽样法(等距抽样)。这一工作必须由经过培训的抽样员实施,抽样过程要记录在《居委会(社区)户籍抽样表》或《居委会(社区)地块抽样表》中,抽样结果要记录在《入户情况登记表》的相应栏目中。“居内抽户”的工作程序主要分以下三个步骤:建立样本框;确定抽样间距;抽取样本并登记。
为了能够把流动人口纳入本次调查的范围之内,本次调查的居委会(社区)级抽样采取“以户定人”的原则,即以住户为抽样单元,无论住户内的成员是户籍人口、常住人口还是流动人口,都是本次调查的潜在对象。换言之,从居委会(社区)到户所确定的调查对象是住户或房屋。在调查时点,无论里面居住的人是户籍人口、常住人口还是流动人口,都是本次调查的潜在对象。
样本框的建立分为如下两种情况:
第一种情况是:如果居委会(社区)有现成的户籍资料(可以从居委会或者当地派出所获取),不论其保存形式为电子文档或纸质文档,抽样员都可以依据户籍资料建立“户样本框”。具体步骤如下:①清理户籍资料。向知情人了解户籍表登记的错漏情况,进行必要的清理、更新、补充。特别要注意以下几点:去除重复的户;去除经知情人士核实为半年以上户内无人的户;添加遗漏的户。②添加集中居住点。在建立户抽样框时,除了家庭户外,抽样员应该特别关注集中居住点的问题。集中居住点是指不同家庭的社会成员共同居住在同一个住房单元内,例如,集体宿舍、工棚、合租房等[3]。抽样员应当向有关知情人了解本居委会(社区)内是否有集中居住点。若存在集中居住点,抽样员应把它们登录到户样本框中,一个集中居住点视作一个家庭户;然后,和家庭户一起参与抽样。当一个集中居住点被抽中时,若人数小于等于10人,则按照家庭户的户内抽样原则处理;若人数大于10人,则随机抽取集中居住点内的10人并将他们看做是一个家庭户,进行户内抽样。③登记样本框并统一编号。抽样员将清理后的“户籍资料”登录在《居委会(社区)户籍抽样表》的相应栏目中,并进行统一编号,以备下一步抽样使用。
第二种情况是:如果居委会(社区)没有现成的户籍资料,抽样员需要会同有关知情人,依据已知的地理信息(如地图、地址簿等),依据地块现场制作“户样本框”。具体步骤如下:①了解社区基本情况。抽样员首先抵达抽中的社区或居委会,向知情人(包括社区或居委会工作人员)了解本社区的基本情况(包括总户数、地理边界、主要街道等信息)。②列出所有建筑并进行编号。在此基础上,利用谷歌地图(http://maps. google.com/)或百度地图(http://map.baidu.com),结合实地走访情况,列出所有有人居住建筑的列表和编号(4位码),并绘制平面示意图、注明建筑编号。③为每一幢建筑建立门牌编号。给每一幢建筑中的住户建立门牌编号(7位码,第1位表示楼门号,第2—3位表示楼层,第4—7位表示门牌号)。如果是平房,则前3位均编码为0。这些门牌号就构成本社区或居委会的住户地址表,即“户样本框”。④校验信息。抽样员注意,上述步骤所取得的地址表,应和其他信息相互校验,以便让地址表尽可能符合当地居委会或社区的实地边界和住户情况。⑤登记样本框并统一编号。抽样员将清理后的“户籍资料”登录在《居委会(社区)地块抽样表》的相应栏目中,并进行统一编号,以备下一步抽样使用。
建立样本框之后,需要根据样本框内的总户数(N)、需要调查的户数(m)以及拒访率估值(r)确定抽样的间距(I)。计算公式是:
I =[N* (1-r)]/m
在确定了抽样间距之后,就可以在样本框中进行抽样了,具体步骤如下:①选择抽样起点。随机选取一个小于间距I的整数K (1—65之间的一个整数)作为起点。②抽取样本。户抽样框中编号为K的户就是本次调查被抽中的第一个样本。然后,我们依次抽中户样本框中编号为K + I、K + 2I…K + (m/r-1) I的户,作为本次调查的样本户。抽样的样本数量应当等于m/r。③登记样本。抽样员应严格按照填表说明,将抽中的样本户在《居委会(社区)户籍抽样表》或《居委会(社区)地块抽样表》中的“是否抽中”中划“√”;并将抽中的样本详细地址登录到《入户情况登记表》中,以备访问员依此进行访问。
居内抽户的工作完成后,抽样员和访问员不可更换样本户。如果经多次努力仍然无法调查抽中的样本户,访问员请在《入户情况登记表》中的相应栏目中注明原因,但不可以进行户替代。在本次调查中,如果同一居委会(社区)内已经完成了额定的有效问卷数量(15份),本居委会(社区)内的调查工作即可正常结束。如果同一居委会(社区)内,访问员走访了全部样本名单之后仍无法完成额定的有效问卷数量(15份),访问员应向督导员报告实施情形和无法完成的原因。由督导员向项目经理报告,并和中国社会科学院的联络员协调,决定如何处置。
(四)第四阶抽样:USU (回答人)的抽取
抽中的家庭户中包含的所有16岁以上家庭成员构成第四级样本框。在成功入户后,访问员需要借助问卷首页上的Kish表从户内成员中抽选出被访者。
——访问员应首先了解这一户中16周岁及以上的户内人口数(即问卷中的S8题),然后在Kish表的第一列“适合对象数”栏中的相应数字上画“○”。如果16周岁及以上的户内成员只有1人,则调查此人;如果人数大于10人,则以年龄排行居中的人作为访问对象;如果人数为2到10人,请继续以下步骤。
——访问员应查看本问卷编号的个位数(位于问卷的首页右上角),然后在Kish表的第一行“问卷编号个位数”下面的相应数字上画“○”。
——用“16周岁及以上的户内人口数”确定相应的行,用“本问卷编号的个位数”确定相应的列,在相应的行列交叉的单元格数字上画“○”。设此数字为N。
——将本户所有适合访问对象按年龄从小到大排序,选择其中处于第N位的成员,即是本次调查的访问对象。
——对于集中居住点,若总人数小于等于10人,采用Kish表进行户内抽样;若人数大于10人,则按照前面所提及的系统抽样法,随机抽取集中居住点内的10人,再采用Kish表进行户内抽样。
表2.3 例子:用Kish表进行户内抽人
例如,如果一户中16周岁及以上的人共有3位,问卷编号的个位数是5,则查找第3行和第5列的行列交叉处数字为1。将本户所有适合访问对象按年龄从小到大排序,选择其中处于第1位的成员(即最年轻者),即是本次调查的访问对象。
如果抽中对象同意接受访问,则开始进行问卷访谈。
如果抽中对象拒绝接受访问,访问员应如实在《入户情况登记表》中的“访问失败”——“受访者原因”的相应栏中标明抽中对象的性别,并记录下“失败原因”。
如果抽中对象因不在家、出国、病重等原因无法接受调查时,可根据当时情况考虑是否应约访抽中对象。如不能约访,访问员也应如实在《入户情况登记表》中的“访问失败”——“受访者原因”的相应栏中标明抽中对象的性别,并记录下“失败原因”。
不管因何种原因而访问失败,访问员都不得在户内替换抽中的被访者,而应在《入户情况登记表》中注明,然后开始下一户的入户工作。
“社会态度与社会发展”调查的执行工作是通过公开招标方式,委托商业性的专业调查机构负责执行的。在执行过程中,调查组通过督导进行了较为严格的质量控制。
关于质控要求
首先是培训
所有参与项目人员必须参加过基础培训,内容包括讲解户内抽样方法、问卷内容、访问员手册、相关物品的使用等。访问员必须熟悉并能正确填写相关表格,在参加项目培训、模拟访问、试访合格后方可参与项目正式执行。
其次是陪访
本地执行城市访问员陪访率≥30%;异地执行城市访问员陪访率≥50%;新访问员陪访率≥100%。凡陪访样本须认真填写陪访报告。
第三是录音复核
50%的访问要求录音。调查结束后对于录音进行了20%的复核。
最后是电话复核
要求所有访问都尽可能留取被访者的电话。调查结束后对于电话进行了50%的复核。
关于调查时间的统计
根据事后对于调查时间的统计,本调查问卷访问时间均值为23.75分钟,标准差为6.2分钟;中位值为24分钟。最长用时60分钟,最短用时8分钟。
在数据录入与数据清理过程中,我们主要进行了以下的一些工作。
首先是数据录入
数据用软件EpiData Entry 3.1进行录入。本次调查对所有问卷数据采取双录比对,将录入中造成的数据错误降至最低。此外,利用Epidata Entry中的数据录入质控功能,预先编制程序,令计算机系统自动检验和控制其中变量的值域错误与变量间的逻辑错误。
其次是数据清理
在数据录入之后,对数据进一步进行清理。清理工具主要包括:
1.核查。进行双录比对、核查个案的唯一性与完备性;地址核查;文字与编码比对;问卷时间核查。
2.编码。包括对职业变量进行手工编码;进行职业声望赋值;缺失值处理;“其他”项处理;排序题重新编码等。
3.剔除不合格问题。包括剔除变量缺失数超过50个的问卷;剔除关键变量(性别、年龄、家庭人口数)缺失的问卷。问卷初步回收8147份,一共剔除了77份不合格问卷,获取合格问卷8070份。
最后是抽样权重与目标总体校正
为了更准确地对目标总体进行估计,课题组根据抽样信息对数据进行了抽样权重的计算。此外还根据2010年“六普”公报中的性别、年龄、民族、教育程度等信息,对数据进行了目标总体校正。
[1]Li,Atteslander,Tanur and Wang,1998,Searching for Hidden Reality:Anomie and Social Change.SAD.
[2]对于为何将回答“没有变化”的受访者进一步划分,我们主要出于以下考虑:从问卷调查的一般经验出发,会有部分受访者出于各种顾忌而在回答多级量表时选择中间项,如“无所谓”、“不知道”“一般”等,而这部分受访者人数的多寡往往会影响统计结果以及与现实状况的相符程度。我们在构建社会信心指数时,发现有相当比例的受访者在对未来的预期上选择了“没有变化”,我们认为,如果将这部分受访者对未来的预期与其对当下现状的满意程度结合起来进行考量,无疑会进一步提高研究结果的准确性。
[3]军事管理区域内的集中居住点不在本次调查的范围之内。