
第三节 分配数列
一、分配数列的概念
统计分组后将总体单位归类到各组中去,按组顺序排列,并分别计算出各组的单位数,便形成了总体单位在各组之间的分布,称为分配数列或分布数列。分配数列由总体中的各个组的名称(或各组变量值)和各组相应的单位数构成。各组分布的单位数叫次数,又叫频数,各组的次数与总体次数之比叫频率或比率。
分配数列是统计整理结果的一种重要表现形式,反映了总体的分布状况和分布特征。在此基础上可以进一步分析研究总体的构成、一般水平及变动规律。
二、分配数列的种类
在统计中,根据分组标志的性质不同,分配数列可以分为品质分配数列和变量分配数列两种。
(一)品质分配数列
按品质标志分组所整理的分配数列称为品质分配数列,简称品质数列。
例如,某公司收集了反映100名顾客在购买手机时最关注情况的资料,如表3.4所示。
表3.4 100名顾客购买手机关注情况资料表

注:表中A代表价格,B代表品牌,C代表售后服务,D代表功能,E代表外观
很显然,上述数据是不便于直接观察和认识的。为了观察分析人们购买手机时最看重的因素,对上述资料按“关注类型”这个品质标志进行分组整理,得到品质分配数列,如表3.5所示。
表3.5 顾客购买手机关注情况的频数分析表

经分类整理成品质分配数列后,调查得到的数据被大大简化了,我们可以很容易看出,关注“功能”的人数最多,共43人,占被调查总人数的43%;关注“品牌”的人数为30人,占被调查人数的30%。由此可见,人们购买手机时普遍关注的是功能与品牌。
(二)变量分配数列
1.变量分配数列的含义
按数量标志分组所整理的分配数列称为变量分配数列,简称变量数列,如表3.6所示。
表3.6 某单位职工植树量统计表

变量数列有单项式的分配数列和组距式的分配数列两种。
(1)单项式分配数列
它是指分组时将每一个变量值作为一组顺序排列的数列,如表3.4所示。这种分组方法通常只适合于变量值变动范围比较小、变量值不多且是离散变量的情况下采用,因为其变量值可以一一列举。
(2)组距式分配数列
它是指分组时将有一定变动范围的两个变量值作为一组所形成的变量数列,如表3.2所示。在组距分组中,每个组的最小值称为下限,最大值称为上限。组距分组适用于连续变量或虽为离散型变量但取值很多、不便一一列举分组的情况。
2.组距式分组的步骤
单项式分组方法简便,易于操作,但实际应用情况并不多;比较而言,组距式分组方法应用得较多,但是其分组方法难度稍大。现将整理组距式分配数列应注意的问题和方法分述如下:
某商场手机柜台在年初55天的销售活动中,手机的日销售量(部)资料如下:
59 73 87 65 89 85 77 94 69 97
56 80 68 87 96 50 63 88 91 90
96 86 93 79 74 65 74 89 83 51
74 79 94 67 92 82 81 70 87 86
54 87 86 54 62 76 86 73 86 70
100 110 108 102 112
对上述数据进行组距式分组,应当按照下列步骤进行:
(1)计算全距。对数据进行排序,找出最大值与最小值,计算全距。全距即全部数据中的最大值与最小值之差。其排序结果如下:
50 51 54 54 56 59 62 63 65 65 67 68 69 70
70 73 73 74 74 74 76 77 79 79 80 81 82 83
85 86 86 86 86 86 87 87 87 87 88 89 89 90
91 92 93 94 94 96 96 97100 102 108 110 112
结果表明:最大值为112,最小值为50,全距=112-50=62。
(2)确定组数。组数的确定就是指将总体分为多少组。它主要取决于数据分布的特点,组数要恰当,既不能太多也不能太少。如果组数过多,又可能造成数据的分布过于分散,同样不便于观察数据分布的特征和规律;如果组数过少,数据的分布就会过于集中,容易混淆数据的界限。一般来说,如果编制的组距数列能够反映总体的分布特征,那么所确定的组数就是正确的。
(3)确定组距。组距是一个组的上限与下限的差,一般由全距和组数来决定。组距=全距÷组数,它表明在全距一定的情况下,组距与组数成反比,即组数越多组距越小。组距通常取整数,一般应是5或10的倍数。本例中,组距=62÷7=8.9,组距可取10。
(4)确定组限。组限是每个组两端的数值,每个组最大的值为上限,最小的值为下限。组限表示各组数据变化的范围。在确定组限时,不能将不同性质的数据划归到一个组内。例如,学生考试成绩中60分是及格与否的分界线,就不能采取55~65分的分组方式,以利于区分各组的性质。对于连续型变量,因取值连续,所以采取将相邻两组的组限重叠的方法。例如,考试成绩可以分为40~60分、60~80分、80~100分几个组。按照这种分组方法必须遵循统计中“上组限不在本组内”的原则来计算各组的频数,即如果某一变量值恰好等于某一组上限的变量值,就应将该变量值划归下一组组内。如某人的成绩恰好为80分则应归入80~100分一组,这样便可解决数据“不重”的问题。在实际分组时,第一组的下限应当略小于或等于最小变量值,最后一组的上限应当略大于或等于最大变量值,这样可以保证所有数据不被统计遗漏。
(5)编制组距分配数列。根据以上相关资料整理的手机的日销量组距分配数列,如表3.7所示。
表3.7 手机日销售量分布表

如果一个组的组限表示为“××以下”或“××以上”,即缺下限或缺上限,则称这样的分组为开口组。开口组适合于数据中出现极端值的情况,假如在上例的数据中,最小值改为19,最大值改为156,若仍然按照上面的分组,就会出现没有频数的空白组,此时可采用开口组,如表3.8所示。
表3.8 手机日销售量分布表

组距数列中若各组的组距相等则称为等距分组,如按学生成绩的分组,可分为40~60分、60~80分、80~100分等,就是等距分组。有时,对于某些特殊现象或为了特定研究的需要,各组的组距也可以是不相等的,称为不等距分组。比如,按人口年龄的分组,可以根据人口成长的生理特点分成0~6岁(婴幼儿组)、7~17岁(少年儿童组)、18~59岁(中青年组)、60岁以上(老年组)等。
(6)组中值的确定。组距分组掩盖了各组内的数据分布状况,为了反映各组数据的一般水平,需要用组中值作为该组数据的一个代表值,组中值是每组变量值中点的那个数值。。但这种代表有一个必要的假定条件,即各组数据在本组内呈均匀分布或在组中值两侧呈对称分布。如实际数据的分布不符合这一假定,用组中值作为一组数据的代表值会有一定的误差。对于开口组组中值的确定,一般借助于相邻组的组距来计算。
表3.8的组距数列中,60部以下组缺下限,其组中值为:

表3.8的组距数列中,110以上组缺上限,其组中值为:

3.累积频数和累积频率
进行统计分析时,常需要观察某一数值以下或某一数值以上的频数或频率共为多少,这时可以计算累积频数或累积频率。
累积频数就是将各组的频数逐组累加起来。其方法有两种:一是从变量值小的一组向变量值大的一组累加频数,称为向上累积,此时每组的累计频数表示本组上限以下总共包含的总体次数是多少;二是从变量值大的一组向变量值小的一组累加频数,称为向下累积,此时每组的累计频数表示本组下限以上总共包含的总体次数是多少。
累积频率或累计百分比,就是将各组的百分比逐组累加起来。它也有向上累积和向下累积两种方法。
仍然以表3.7为例计算累积频数或累积频率,结果如表3.9所示。
表3.9 手机日销售量累积频数分布表

若观察手机日销售量在70部及以上的天数共有多少,应采用向下累积,即70~80组对应的“向下累积”42(天),等于日销售量在70~120之间5组天数合计;若观察手机日销售量在100部以下的天数共有多少,应采用向上累积,即90~100组对应的“向上累积”50(天),等于日销售量在50~100之间5组天数合计。同样,还可以求出日销售量在70部及以上的天数频率(即比重)为76.4%,日销售量在100部以下的频率为90.9%。累积次数的特点是:同一数值的向上累积和向下累积次数之和等于总体总次数。表3.9中,日销售量70部以上的累积天数是42天,与日销售量70部以下的累积天数13天之和为55天,其累积频率之和等于1或100%。表3.9中,日销售量70部以上的累积频率为76.4%,日销售量70部以下的累积频率为23.6%,其累积频率之和为100%。