第二节 离散程度的度量
一、分类数据:异众比率
异众比率是指非众数组的频数占总频数的比例,用表示。其计算公式为:
式中,为变量值的总频数;fm为众数组的频数。
异众比率主要用于衡量众数对一组数据的代表程度。异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性就越差;异众比率越小,说明非众数组的频数占总频数的比重越小,众数的代表性越好。
异众比率主要适合测度分类数据的离散程度。对于顺序数据以及数值型数据也可以计算异众比率。
二、顺序数据:四分位差
四分位差(内距或四分间距)是上四分位数与下四分位数之差,用表示。其计算公式为:。
四分位差反映了中间50%数据的离散程度,其数值越小,说明中间的数据越集中;其数值越大,说明中间的数据越分散。
四分位差不受极值的影响,其主要用于测度顺序数据的离散程度;对于数值型数据也可以计算四分位差,但不适合分类数据。
三、数值型数据:极差、平均差、方差和标准差
1.极差
一组数据的最大值与最小值之差称为极差,也称全距,用R表示。其计算公式为:R=max(xi)-min(xi)。
由于极差只是利用了一组数据两端的信息,因此容易受极端值的影响,并且不能反映出中间数据的分散状况,因而不能准确描述出数据的分散程度。
2.平均差
平均差也称平均绝对离差,它是各变量值与其平均数离差绝对值的平均数,用表示。
(1)根据未分组数据计算平均差的公式为:
(2)根据分组数据计算平均差的公式为:
平均差以平均数为中心,反映了每个数据与平均数的平均差异程度,它能全面准确地反映一组数据的离散状况。平均差越大,说明数据的离散程度越大;反之,则说明数据的离散程度越小。
3.方差和标准差
(1)方差:各变量值与其平均数离差平方的平均数。
样本方差:样本数据个数减1后去除离差平方和。其中样本数据个数减1,即n-1称为自由度。
设样本方差为s2,根据未分组数据和分组数据计算样本方差的公式分别为:
未分组数据:
分组数据:
(2)标准差:方差的平方根。与方差不同的是,标准差是有量纲的,它与变量值的计量单位相同,其实际意义要比方差清楚。
标准差的计算公式分别为:
未分组数据:
分组数据:
4.相对位置的度量
有了平均数和标准差之后,可以计算一组数据中各个数值的标准分数,以测度每个数据在该组数据中的相对位置,并可以用它来判断一组数据是否有离群数据。
(1)标准分数
变量值与其平均数的离差除以标准差后的值称为标准分数,也称标准化值或z分数。设标准分数为z,则有
标准分数给出了一组数据中各数值的相对位置;它具有平均数为0、标准差为1的特性。实际上,z分数只是将原始数据进行了线性变换,它并没有改变一个数据在该组数据中的位置,也没有改变该组数据分布的形状,而只是将该组数据变为平均数为0,标准差为1的一组新数据。
(2)经验法则
当一组数据对称分布时,经验法则表明:
约有68%的数据在平均数±1个标准差的范围之内;
约有95%的数据在平均数±2个标准差的范围之内;
约有99%的数据在平均数±3个标准差的范围之内。
在3个标准差之外的数据,在统计上称为离群点。
例3:某班学生的平均成绩是80分,标准差是10分。如果已知该班学生的考试分数为对称分布,可以判断考试分数在70到90分之间的学生大约占( )。
A.95%
B.89%
C.68%
D.99%
【答案】C
例4:如果一组数据是对称分布的,则在平均数加减3个标准差之内的数据大约有( )。
A.68%
B.90%
C.95%
D.99%
【答案】D
(3)切比雪夫不等式
如果一组数据不是对称分布,经验法则就不再适用,这时可使用切比雪夫不等式,它对任何分布形状的数据都适用。
对于任意分布形态的数据,根据切比雪夫不等式,至少有(1-1/k2)的数据落在k个标准差之内。其中k是大于1的任意值,但不一定是整数。对于k=2,3,4,该不等式的含义是:
至少有75%的数据落在平均数±2个标准差的范围之内;
至少有89%的数据落在平均数±3个标准差的范围之内;
至少有94%的数据落在平均数±4个标准差的范围之内。
例5:如果一组数据不是对称分布的,根据切比雪夫不等式,对于k=4,其意义是( )。
A.至少有75%的数据落在平均数加减4个标准差的范围之内
B.至少有89%的数据落在平均数加减4个标准差的范围之内
C.至少有94%的数据落在平均数加减4个标准差的范围之内
D.至少有99%的数据落在平均数加减4个标准差的范围之内
【答案】C
四、相对离散程度:离散系数
对于平均水平不同或计量单位不同的不同组别的变量值,是不能用标准差直接比较其离散程度的。为消除变量值水平高低和计量单位不同对离散程度测度值的影响,需要计算离散系数。
离散系数也称为变异系数,它是一组数据的标准差与其相应的平均数之比。其计算公式为:
离散系数是测度数据离散程度的相对统计量,其作用主要是用于比较对不同样本数据的离散程度。离散系数大,说明数据的离散程度也大;离散系数小,说明数据的离散程度也小。
例6:甲、乙两班同学参加了统计学期末考试,结果两班的平均成绩,标准差,则统计学成绩离散程度较大的是( )。
A.甲班离散程度较大
B.乙班离散程度较大
C.两班离散程度一样大
D.无法判断
【答案】B
【解析】为了消除变量值水平高低和计量单位不同对离散程度测度值的影响,需要计算离散系数,其计算公式为:,标准差系数越大,离散程度越大。由于,所以乙班学生统计学成绩离散程度较大。
例7:两组数据的平均数不等(平均数都为正值),但标准差相等,则( )。
A.平均数小的,离散程度大
B.平均数大的,离散程度大
C.平均数小的,离散程度小
D.两组数据的离散程度相同
【答案】A
【解析】变异系数是指一组数据的标准差与其相应的平均数之比,是用来测度数据离散程度的相对统计量。其计算公式为:。可见,在标准差相等的情况下,平均数小的,其变异系数大,即离散程度较大。