第三节 概率抽样
概率抽样就是使总体中每一个体都有一个已知不为零的被选机会进入样本。概率抽样分为两大类:等概率抽样和不等概率抽样。前者总体中每一个体被选机会相等,后者每一个体被选中机会不等。等概率抽样又称随机抽样。概率抽样是以概率理论为依据,通过随机化的机械操作程序取得样本,故而能避免抽样过程中的人为因素的影响,保证样本的代表性。对于不等概率抽样,可以采用某些加权的方法对不相等的概率作调整。在以各种方式抽取的样本中,随机样本的代表性最高。虽然随机样本不会完全与总体一致,但它能确定抽样误差,能正确地说出样本的统计值在多大程度上适合于总体,像所有的科学方法一样,它允许通过对误差来源的分类和客观评价进行积累改进。
一、简单随机抽样(纯随机抽样)
简单随机抽样是最基本的概率抽样,最直观地体现了抽样的基本原理,它是其他抽样方法的基础,其他概率抽样都可以看成是由它派生而来的。简单随机抽样是一种特殊的等概率抽样方法,总体中每一个体均有同等被选机会,而且样本中每一个体是被单独地选出的,它是一种元素抽样。简单随机抽样分为重复抽样和不重复抽样两类。在重复抽样中,已被选中的个体仍放回总体中,因此在同一样本中,某一个体就有可能不止一次地出现。在不重复抽样中,被选为样本的个体不再放回总体,因此,在同一个样本中,每一个体只能出现一次。根据抽样理论,重复抽样比较完善。不过,当总体足够大时,不重复抽样结果与重复抽样相差很小,所以在大规模社会调查中,通常使用不重复抽样。
简单随机抽样对总体中所有个体按完全符合随机原则的特定方法抽取样本,即抽样时不进行任何分组、排列,使总体中任何个体都同样有被抽取的平等机会,即对总体中任何分子一视同仁。由此可见,为了保证总体中每一个体进入样本的机会均等,首先要保证抽样框的充分性,如果某些分子被重复列入抽样框,则其进入样本的机会便增加了;如果有些个体被漏掉了,它们就没有进入样本的机会,这样一来就破坏了随机原则。
常用的抛硬币、抽签等方法都是简单随机抽样。但社会调查中的简单随机抽样通常是使用随机数字表进行。随机数字表是由数字0—9组成的表,由电子计算机编制而成。表7.1是斯内伯克和科克伦编制、1969年出版的随机数字表中的由一千个随机数字组成的表的片断。下面我们举一例说明如何用随机数字表进行抽样。
表7.1 一千个随机数字
假定研究总体N=528,即总体中有528个个体,我们欲抽选一个由10个个体组成的样本,因为N是个三位数,因此首先从表7.1中的50列数字中随机抽取三列,例如我们选中了第25—27列,然后由上而下在这三列中选出头10个001到528之间的不同的数(当遇到的是000和大于528的数时均跳过),它们是036,509,364,417,348,127,149,186,290,162。最后这两个数290和162是跳到第30—32列取得的,因为25—27列中不含有001—528之间的数字了。当然在开始从第25—27列抽样时,不一定非从这三列的第一行数字开始,而可以从任意一行开始,例如从第七行开始,然后顺序往下找,直到抽够10个数字为止。如果从这三列抽出的符合要求的数字不足时,就要另外随机抽取三列,从中继续抽取。如果N是四位数字,则抽样时首先从表中的50列中抽取四列,再依上法抽出样本。
简单随机抽样是概率抽样的理想类型,没有偏见,简单易行,且在从随机样本的抽取到对总体进行推断时,有一套健全的规则。但是当总体所含个体数目太多时,采用这种抽样方式不仅费时甚多,工作繁杂且费用太高,例如欲从北京市全体家庭中抽取2000户作样本,若采用简单随机抽样方法,需将全市近200万以上家庭全部登记造册,制成抽样框,仅此一项,就成为一件巨大的工作。此外,这种抽样方法,在构成总体的个体差异不大时,用之比较有效,而在总体异质性较高时,误差较大。
二、分层抽样
所谓分层抽样就是先将总体依照一种或几种特征分为几个子总体(类、群),每一个子总体称为一层,然后从每一层中随机抽取一个子样本,将它们合在一起,即为总体的样本,称为分层样本。由于社会研究对象的复杂性和异质性程度较高,有必要将它们按不同特征分为不同类型(或层),因此,分层抽样在社会研究中获得广泛的应用。分层抽样的优点是:
1.当一个总体其内部分层明显时,分层抽样能够克服简单随机抽样的缺点。由于它是按群体的特征分布从不同层获得尽可能均衡的样本数,使样本与总体更相似,从而改善了样本的代表性。例如,在某个干部总体中,党的干部占总体的20%,行政管理干部占25%,技术干部占40%,其他各类专业干部占15%。按这四个干部类别(层)进行分层抽样,使样本中各类干部所占的比例也分别为20%,25%,40%和15%。这时样本似乎成了总体的一个“缩影”。
2.分层抽样可以提高总体参数估计值的精确度。由于它可以将一个内部差异很大的总体分成一些内部比较相似的子总体,从每一子总体内抽出一个小样本就能较好地代表总体,因此,在样本数相同的情况下,分层抽样比简单随机抽样的精确度高;或在同样的精确度要求下,分层抽样的样本规模较小。
3.有些研究不仅要了解总体的情形,而且还要了解某些类别的情形,分层抽样可以同时满足这两个要求,因为我们可以将每一类(层)看作一个总体。此外,对总体的不同部分还可以采用不同的抽样方法。例如,对居住在各社会机构(旅馆、监狱、医院)的人和居住在一般家庭中的人,对流动人口和固定人口等,采用不同的处理方式,这时分层抽样便显示出其优越性。
4.便于行政管理。因一层可以看作一个总体,因此每层可由专人进行管理。
按各层子样本容量的确定方式,分层抽样可分为按比例分层抽样和非比例分层抽样。前者要求各层的子样本在总体的样本中所占比例与本层在总体中所占比例相同。例如某中学有1000名学生,其中男600人,女400人,欲采用分层抽样从中抽取100人的一个样本,则其中男应有60人,女应有40人。有时我们希望了解的是一些层所代表的子总体的情况,而不是总体情况,例如我们想了解某高校本科生、硕士研究生与博士研究生对职业的选择趋向。全校共有学生1000人,三者所占比例为6∶3∶1,如果我们按比例抽选一个60人的样本,则博士生仅占6人,数量太少,这时我们就要使用异比分层,例如每组均抽20人,这就使博士生的被抽机会三倍于硕士生、六倍于本科生,是一个非等概抽样,为此在作统计推论时,要进行加权处理。
应当以抽样单位的何种特性作为分层的标准,也就是说,应选用什么样的变量作为分层变量呢?一般来说,用以分层的理想变量是在调查中要加以测量的变量,例如调查某厂职工购买书籍的平均册数,最好的分类变量是年购书总册数。将职工分为买5本以下,5—10本,10—15本,15—20本,20本以上等五个层。经数学证明,这样选择分层变量,样本精确度可提高很多。然而实际上是不可能按这样的办法分层的,因为在调查之前我们无法知道每个职工的购书数量。因此,研究者一般是选择与调查中欲测量变量高度相关的变量,即对所要研究的变量有很大影响的因素作为分层变量。如在上例中,可按“教育水平”将职工分层,因为这一变量对职工购书量有很大影响。从理论上来说,在确定分层变量时应考虑到所有影响因素,但实际上却往往缺乏有关的详细资料,因此通常是主观判定哪个或哪几个因素与欲测变量高度相关,当然,如果选择的分层变量与欲测变量很少相关,那么,样本的精确度就会降低。选择分层变量另一个原则是具有实用性,有时层是自然形成的,例如当研究对象具有较大的地理差异时,作为分层标准的可以是不同的地理区域,如不同国家或不同省市。又如在以个人为抽样单位时,较重要和普遍的分层标准有性别、年龄、教育、职业等。
除选择适当的分层变量外,提高分层样本的精确度还必须力求符合分层的原则,即尽可能使各层内部保持一致,以简化总体的构造,使各层之间具有明显的差异性,以便包括总体的各种特性。此外,样本的精确度还与分层数目及样本大小密切相关,分层越细,样本越大,则样本的代表性越好。
分层抽样适用于总体内个体数目较多,结构较复杂,内部差异较大的情况。
三、系统抽样(或等距抽样,机械抽样)
系统抽样是简单随机抽样的一个变种,其具体做法是:
(1)将总体的所有个体前后排列起来。
(2)计算抽样距离。抽样距离是由总体大小和样本大小决定的,假设总体所含个体数为N,样本所含个体数为n,则抽样距离应为。
(3)在头K个个体中,用完全随机的方式抽取一个个体,设其所在位置的序号是k。
(4)自k开始,每隔K个个体抽取一个个体,即陆续抽取的个体所在位置序号为k, k+K, k+2K+……+k+(n-1)K。例如,设北京大学有12,000名学生,欲了解其每月伙食费情况,可从中抽查200名学生。则这时的抽样距离。假设用随机抽样法抽出的第一位学生是第12号学生,则第二位应是第72号学生,第三位应是132号,依次类推,直至抽足200名。若抽到最后仍不足所需样本时,可再回头累积抽取。如本例12,000名同学抽完后还差一位同学,即第199位学生的号码为11,952号,再加60则为12,012号,这时从头累加,应为12号,但12号已被抽出,因此递推选第13号为第200位访问对象。
一般说来,与简单随机抽样一样,等距抽样也要收集总体的名单,将总体中的所有个体进行编号。不同的是,它不需多次使用随机数字表抽取个体,而只需按间隔等距抽取即可。此外,等距抽样在某种情况下可不必像简单随机抽样那样编列个体的号码,只要总体的排列次序是随机的,就可依已排好的次序,从中等距抽取。例如抽样个体是登记在同样大小的卡片上并将其放在盒子中,如户籍卡片,则可用一把尺子抽样,比如可每隔一寸抽一张卡片。因此,与简单随机抽样相比,系统抽样易于实施,工作量较少。
系统抽样的另一优点是样本在总体中的分布更平均,故而抽样误差小于或至多等于简单随机抽样,即较其更精确。事实上,它亦可以看成是分层抽样,它等于将总体分成几层,每K个分子为一层,也就是说可以看作是每层只抽一个个体的分层抽样。两者不同的是,系统抽样的样本个体在每一层的相对应位置上,而分层抽样则是由每层随机抽取的,两者情形请见图7.1。系统样本在总体中分布得更均匀,这一点使等距抽样的精确度较分层抽样更好。
图7.1 分层抽样与等距抽样
系统抽样是以总体的随机排列为前提的,如果总体的排列出现有规律的分布时,就会使系统抽样产生很大误差,降低样本的代表性。例如,部队的名单一般是以班为单位排列的,10人一班,第一名是班长,最后一名是副班长。若抽样距离也是10时,则样本或均由(正、副)班长组成,或均由战士组成,失去了代表性。因此,在使用系统抽样时一定要认真考察总体的排列情形和抽样距离。如原有的排列次序有可能导致抽样失败的话,就应当打乱原排列次序或改用其他抽样方法。
系统抽样作为简单随机抽样的变种,与简单随机抽样一样,最适用于同质性较高的群体。当总体内不同类别之间所含个体的数目相差过于悬殊时,采用此法样本的代表性可能较差。例如工厂内工人多、技术人员少,如果用等距抽样可能很少抽中或完全没有抽中技术人员,这种情况下一般采用分层抽样。它通常被用于复杂样本的最后抽样阶段。
四、整群抽样(聚类抽样)
整群抽样是将总体按照某种标准划分为一些子群体,每一个子群为一个抽样单位,用随机的方法从中抽若干子群,将抽出的子群中所有个体合起来作为总体的样本。
整群抽样与分层抽样有相似之处,即它们在第一步都是根据某种标准将总体分为一些小群,但两者的抽样方式不同。在分层抽样中所有子群均要抽取一个子样本,作为总体样本的一部分,即总体样本在各层中均有分布。而整群抽样则不然,它是抽取若干子群并将抽出子群的全部个体合起来作为样本,因此,总体样本分布在部分子群中。由于抽样方式的不同,导致两者间划分子群的原则也不同。在分层抽样中,层的划分依据的是层之间异质性高,层内则尽可能同质的原则。整群抽样因仅抽取某几个子群作为整体的代表,如果子群间差异显著,且每个子群内同质性很高,那么这种情况下抽出的几个子群显然无法代表总体。例如要调查某工厂职工的平均收入,将工人按照工资级别(1—8级)分为8个子群,用整群抽样抽取其中几个子群,假如抽到1级、4级、5级三个子群,显然这三级工人的平均工资无法代表全厂工人的收入水平。因此,整群抽样的分群原则应与分层抽样不同,它是使得群间异质性低,群内异质性高,因此,分层抽样适用于界质分明的总体,而整群抽样适用于界质不清的总体。
整群抽样的优点在于:(1)它可以通过转换抽样单位扩大抽样的应用范围;(2)它可节省人、财、物力。如前所述,抽样要求有一份以总体所有个体排列的清单,即抽样框,但许多调查中往往因抽样单位的选择而无法得到总体的所有个体的可靠名单,有时即使可以得到这样一份名单,所需费用也十分昂贵,这就限制了抽样的应用范围。例如我们需从一个几十万人口的城市里以个人为抽样单位进行抽样,就需要有一份将这几十万人口排列出来的清单,这在实际上是极难做到的。在这种情况下,使用整群抽样获得抽样框就容易得多,例如在城市中可以以居民委员会作为抽样单位制作抽样框,这显然要比以个人为抽样单位制作抽样框现实和容易得多。整群抽样通过将抽样单位由个人转换成群体,使由简单随机抽样和分层抽样所不能进行的抽样调查成为可能,这就大大地扩大了抽样的应用范围。此外,即使有总体的抽样框,为节约人力费用,也常常采用整群抽样。
整群抽样的最大缺点是样本分布不均匀,样本的代表性较差。因此与其他抽样方法相比,在样本数相同时,其抽样误差较大。例如一个容量为800的整群样本,在效率上可能约与一个容量500的简单随机样本相等。特别要注意的是分析整群样本的资料,如抽样误差、统计推断、假设检验要比前面几种抽样方法复杂。尽管有这些局限性,但由于实施起来比较方便,而且还可以节约人、财、物力,因此在大规模、大范围的调查中,仍常常采用这种抽样方法。例如,当样本的大小一定时,对一个包含20个街道的调查要比只在一个街道对所有居民户进行调查困难得多。当然,前者的样本精确度要比后者高。在权衡调查费用和样本精确度后,研究者往往会选用整群抽样。
整群抽样分为等规模整群抽样和不等规模整群抽样,前者总体内所有的群规模都相等,而后者总体内各群大小不一。在社会调查中一般遇到的是后一种情况,在这种情况下,往往出现样本规模随机变动的问题。例如某总体含有四个群,人数分别为30、50、15、5,从中抽取两个群作样本,则样本规模可能是80人、45人、35人、65人、55人和20人等六种情况。这种不确定性会给样本设计时费用与精度的预算及实地调查工作带来困难,同时还会产生抽样偏差。为了解决这个问题,往往采取子抽样的方法,即从抽出的样本群中再抽一次样,得到所需样本。
整群抽样的样本群数应如何选择呢?例如,在一个城市的20个街道中应抽选几个街道呢?若总体所含子群总数较少,所抽取的样本群数也必然较少,这样会导致样本过于集中,有可能降低样本代表性。在理论上虽然可以通过增加样本群数来解决,但这会导致样本群数接近子群总数。这无异于总体调查,因而丧失了分群的优越性。另一种方法是增加子群总数,即减少每群所含个体数,这时便可抽取较多子群作为样本,而不增加样本个体数。但是样本群数的增加,会使样本分布范围扩大,这可能导致整群抽样成本低的优点的丧失。一般来说,样本群数占子群数总数的比例应当与样本数占总体的比例大致相当,但当这种抽样无法保证样本代表性时,则应考虑多阶段抽样。
五、多阶段抽样(多级抽样)
在上述整群抽样中,当子群数或子群内部个体数目较多,彼此间的差异不太大时,常常采用更加经济的方法,即不将样本子群中的所有个体作为样本,而是再从中用前述各种随机抽样的方法抽取样本,因最终样本的获得经过两次抽样,我们称其为二阶段整群抽样,同样可作三阶段、四阶段……即多阶段整群抽样。例如,我们要进行一次全国城市居民家庭平均收入水平的调查,可先将城市作为抽样单位进行第一阶段抽样,选出一部分城市。然后再以居民委员会为抽样单位,从所选出的城市中抽取一部分街道,这是第二阶段抽样。最后以家庭为抽样单位作第三阶段抽样,即以家庭为抽样单位,从已选出的街道中随意抽取家庭样本。
对于群体规模不等的多阶段整群抽样,通常使用概率比例抽样法。所谓概率比例抽样法,是根据每一群的规模分配样本容量。下面我们以二阶段整群抽样为例来说明使用概率比例抽样的原理及方法。
在将总体划分成子群时,每个子群中个体的含量常常不同,在这种情况下,二阶段抽样由于第一次抽取子群大小不同,只有在第二阶段抽样时采取措施,才能使总体中每个分子具有同等进入样本的概率。例如,某市有23个区共714万人,欲从中抽取1000人的样本。首先将区作为初级抽样单位,每区人数不等,将每区人数的号码范围列出,东区是1—120,000号,西区是120,000—290,000号,南区是……一直排到7,140,000号,如下表:
从这714万个号码中用随机数字表确定10个号码,则这10个号码所落入的区即为调查区。例如抽中340,000号,它落在南区,则南区就为调查区,从这10个调查区中,每区再随机抽取100人就构成最终样本。这样做,人口多的地区在第一次抽样中被抽中的概率高,但由于所有10个被抽中的区在第二次抽样时不论人口多少均抽100人,所以,人口多的区的居民在自己的区成为调查区后,自己被抽中的概率都趋于相等。例如:
在进行大规模区域调查时,如果抽样单位只有一级且与调查对象的单位一致,例如在全国范围内进行以个人为调查对象的抽样调查,若抽样单位也是个人,则编制抽样框将极为困难,而且样本的分布极其分散,所需调查费用与人力甚巨。多阶段抽样通过采用由高级抽样单位过渡到低级抽样单位的方法,解决了低级抽样单位不易获得的抽样框的问题,并且可以使样本的分布较为集中,从而大大降低调查所费人、财、物力。此外,多阶段抽样由于在各阶段抽样时可根据具体情况灵活选用不同的抽样方法,故能够综合各种抽样方法的优点,提高样本质量。因此,它特别适用于调查范围大、单位多、情况复杂的调查对象。多阶段抽样由于每阶段抽样都会产生误差,因此经多阶段抽样得到的样本的误差也相应增加,这是它的不足。