第三章 数据的概括性度量
第一节 集中趋势的度量
集中趋势是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。
一、分类数据:众数
众数是一组数据中出现次数最多的变量值,用Mo表示。
众数主要用于测度分类数据的集中趋势,也适用于作为顺序数据以及数值型数据集中趋势的测度值。一般情况下,只有在数据量较大的情况下,众数才有意义。
在正态分布和一般的偏态分布中,分布最高峰点所对应的数值即众数。如果没有明显的集中趋势或最高峰点,众数可以不存在。如果有两个高峰点或集中趋势,也可以有两个众数。
对于以单变量值分组的数据,只需直接判断哪一组的次数最多,该组的数值就是众数。在组距分组数据中,根据次数最多的组确定为众数所在组,再按该组与前后相邻两组分配次数之差所占的比重来推算众数组。众数有两种计算公式:
(1)下限公式
(2)上限公式
式中:M0为众数;
L和U分别为众数组的下限和上限;
为众数组次数与上一组次数之差;
为众数组次数与下一组次数之差;
为众数组的组距。
二、顺序数据:中位数和分位数
1.中位数
中位数是一组数据排序后处于中间位置上的变量值,用Me表示。它将全部数据等分成两部分,每部分包含50%的数据,一部分数据比中位数大,另一部分则比中位数小。
中位数主要用于测度顺序数据的集中趋势,也适用于测度数值型数据的集中趋势,但不适用于分类数据。它是一个位置代表值,特点是不受极端值的影响。
(1)未分组数据
根据未分组数据计算中位数时,要先对数据进行排序,然后确定中位数的位置,最后确定中位数的具体数值。
中位数位置的确定公式(n为数据个数):
设一组数据为x1,x2,…,,从小到大的顺序排序后为x(1),x(2),…,x(n),则中位数为:
(2)分组数据
在数据分组的情况下,根据各组数据在组内均匀分布的假定,先按求出中位数所在组的位置,然后再根据中位数所在组中位数次数占全组次数的比重来推算出中位数。其计算公式有两种:
①下限公式
②上限公式
式中:Me为中位数;
L和U分别为中数组的下限和上限;
为小于中位数组的各组次数之和,
为大于中位数组的各组次数之和;
为众数组的组距。
2.四分位数
四分位数、十分位数和百分位数分别是用3个点、9个点和99个点将数据4等分、10等分和100等分后各分位点上的值。
通常所说的四分位数是指处在25%位置上的数值(称为下四分位数)和处在75%位置上的数值(称为上四分位数)。
(1)由未分组数据计算四分位数
根据未分组数据计算四分位数时,首先对数据进行排序,然后确定四分位数所在的位置,该位置上的数值就是四分位数。
设下四分位数为QL,上四分位数为QU ,根据四分位数的定义有:
如果位置是整数,四分位数就是该位置对应的值;如果是在0.5的位置上,则取该位置两侧值的平均数;如果是在0.25或0.75的位置上,则四分位数等于该位置的下侧值加上按比例分摊位置两侧数值的差值。
(2)由分组数据计算四分位数
四分位数的计算公式如下。第个四分位数的计算公式为:
式中:为第个四分位数所在组的下限;
为第个四分位数所在组的次数;
∑f为总次数,即为各组次数总和;
Smi-1为小于第个四分位数所在组的各组次数之和;
为第个四分位数所在组的组距。
三、数值型数据:平均数
平均数也称为均值,它是由一组数据相加后除以数据个数所得的结果。平均数在统计学中具有重要的地位,是集中趋势的最主要测度值,它主要适用于数值型数据,而不适用于分类数据和顺序数据。
1.简单平均数与加权平均数
(1)简单平均数:根据未经分组数据计算的平均数。
设一组样本数据为x1,x2,…,,样本量(样本数据的个数)为n,则简单样本平均数记为,计算公式为:
(2)加权平均数:根据分组数据计算的平均数。
设原始数据被分成k组,各组的组中值分别用M1,M2,…,Mk表示,各组变量值出现的频数分别用,,…,表示,则样本加权平均数的计算公式为:
例1:假如各个标志值都增加5个单位,那么算术平均数会( )。
A.增加到5倍
B.增加5个单位
C.不变
D.不能预期平均数的变化
【答案】B
【解析】假设标志值为,次数为,则算术平均数为,若各个标志值都增加5个单位,即变为x+5,那么算术平均数为:
2.一种特殊的平均数:几何平均数
(1)计算公式
几何平均数是n个变量值乘积的n次方根,用G表示。计算公式为:
(2)适用范围
几何平均数主要用于计算比率的平均。当所掌握的变量值本身是比率的形式时,采用几何平均法计算平均比率更为合理。在实际应用中,几何平均数主要用于计算现象的平均增长率。当数据中出现零值或负值时不宜计算几何平均数。
3.调和平均数
调和平均数又称“倒数平均数”,它是根据各标志值的倒数来计算的平均数。具体地说,调和平均数就是各个标志值倒数的算术平均数的倒数。
(1)简单调和平均数。它是各单位标志值x倒数的简单算术平均数的倒数,以H表示调和平均数,其计算公式如下:
(2)加权调和平均数。加权调和平均数是各单位标志值x倒数的加权算术平均数的倒数,设m代表各项权数(其实质是各组标志值的总和),其计算公式为:
4.三种平均数的关系
由于幂平均数
是关于k的递增函数。而简单算术平均数、几何平均数和简单调和平均数是幂平均数的阶数时的特例。所以有:
四、众数、中位数和平均数的比较
众数、中位数和平均数是数据集中趋势的三个主要测度值,它们具有不同的特点和应用场合。
1.众数、中位数和平均数的关系
从分布的角度看,众数始终是一组数据分布的最高峰值,中位数是处于一组数据中间位置上的值,而平均数则是全部数据的算术平均。
对于具有单峰分布的大多数数据而言,众数、中位数和平均数之间具有以下关系:
(1)如果数据的分布是对称的,众数(Mo)、中位数(Me)和平均数()必定相等,即,如图2-3(a)所示;
(2)如果数据是左偏分布,说明数据存在极小值,必然拉动平均数向极小值一方靠,而众数和中位数由于是位置代表值,不受极值的影响,因此三者之间的关系表现为: ,如图2-3(b)所示;
(3)如果数据是右偏分布,说明数据存在极大值,必然拉动平均数向极大值一方靠,则Mo<Me<,如图2-3(c)所示。
图2-3 不同分布的众数、中位数和平均数
不论如何偏斜,中位数总是在众数与算术平均数之间。经验表明,在适度偏斜的情况下,众数与中位数的距离约为中位数与算术平均数距离的2倍。即:
或
则
例2:一位教授计算了全班20个同学考试成绩的均值、中数和众数,发现大部分同学的考试成绩集中于高分段,下面哪句话不可能是正确的?( )
A.全班65%的同学的考试成绩高于均值
B.全班65%的同学的考试成绩高于中位数
C.全班65%的同学的考试成绩高于众数
D.全班同学的考试成绩是负偏态分布
【答案】B
【解析】中位数的定义即为左右两侧各有50%的数据,不可能出现两侧数据个数不同的情况。
2.众数、中位数和平均数的特点与应用场合
(1)众数是一组数据分布的峰值,不受极端值的影响。其缺点是具有不惟一性,一组数据可能有一个众数,也可能有两个或多个众数,也可能没有众数。
众数只有在数据量较多时才有意义,当数据量较少时,不宜使用众数。众数主要适合作为分类数据的集中趋势测度值。
(2)中位数是一组数据中间位置上的代表值,不受数据极端值的影响。
中位数主要适合作为顺序数据的集中趋势测度值。
(3)平均数是对数值型数据计算的,而且利用了全部数据信息,它是实际中应用最广泛的集中趋势测度值。
当数据呈对称分布或接近对称分布时,3个代表值相等或接近相等,这时则应选择平均数作为集中趋势的代表值。但平均数的主要缺点是易受数据极端值的影响,对于偏态分布的数据,平均数的代表性较差。因此,当数据为偏态分布,特别是当偏斜程度较大时,可以考虑选择众数或中位数,这时它们的代表性要比平均数好。