2020年应用统计硕士(MAS)考试专用教材
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第二节 离散程度的度量

一、分类数据:异众比率

异众比率是指非众数组的频数占总频数的比例,用表示。其计算公式为:

式中,为变量值的总频数;fm为众数组的频数。

异众比率主要用于衡量众数对一组数据的代表程度。异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性就越差;异众比率越小,说明非众数组的频数占总频数的比重越小,众数的代表性越好。

异众比率主要适合测度分类数据的离散程度。对于顺序数据以及数值型数据也可以计算异众比率。

二、顺序数据:四分位差

四分位差(内距或四分间距)是上四分位数与下四分位数之差,用表示。其计算公式为:

四分位差反映了中间50%数据的离散程度,其数值越小,说明中间的数据越集中;其数值越大,说明中间的数据越分散。

四分位差不受极值的影响,其主要用于测度顺序数据的离散程度;对于数值型数据也可以计算四分位差,但不适合分类数据。

三、数值型数据:极差、平均差、方差和标准差

1.极差

一组数据的最大值与最小值之差称为极差,也称全距,用R表示。其计算公式为:R=max(xi)-min(xi)。

由于极差只是利用了一组数据两端的信息,因此容易受极端值的影响,并且不能反映出中间数据的分散状况,因而不能准确描述出数据的分散程度。

2.平均差

平均差也称平均绝对离差,它是各变量值与其平均数离差绝对值的平均数,用表示。

(1)根据未分组数据计算平均差的公式为:

(2)根据分组数据计算平均差的公式为:

平均差以平均数为中心,反映了每个数据与平均数的平均差异程度,它能全面准确地反映一组数据的离散状况。平均差越大,说明数据的离散程度越大;反之,则说明数据的离散程度越小。

3.方差和标准差

(1)方差:各变量值与其平均数离差平方的平均数。

样本方差:样本数据个数减1后去除离差平方和。其中样本数据个数减1,即n-1称为自由度。

设样本方差为s2,根据未分组数据和分组数据计算样本方差的公式分别为:

未分组数据:

分组数据:

(2)标准差:方差的平方根。与方差不同的是,标准差是有量纲的,它与变量值的计量单位相同,其实际意义要比方差清楚。

标准差的计算公式分别为:

未分组数据:

分组数据:

4.相对位置的度量

有了平均数和标准差之后,可以计算一组数据中各个数值的标准分数,以测度每个数据在该组数据中的相对位置,并可以用它来判断一组数据是否有离群数据。

(1)标准分数

变量值与其平均数的离差除以标准差后的值称为标准分数,也称标准化值或z分数。设标准分数为z,则有

标准分数给出了一组数据中各数值的相对位置;它具有平均数为0、标准差为1的特性。实际上,z分数只是将原始数据进行了线性变换,它并没有改变一个数据在该组数据中的位置,也没有改变该组数据分布的形状,而只是将该组数据变为平均数为0,标准差为1的一组新数据。

(2)经验法则

当一组数据对称分布时,经验法则表明:

约有68%的数据在平均数±1个标准差的范围之内;

约有95%的数据在平均数±2个标准差的范围之内;

约有99%的数据在平均数±3个标准差的范围之内。

在3个标准差之外的数据,在统计上称为离群点。

例3:某班学生的平均成绩是80分,标准差是10分。如果已知该班学生的考试分数为对称分布,可以判断考试分数在70到90分之间的学生大约占(  )。

A.95%

B.89%

C.68%

D.99%

【答案】C

例4:如果一组数据是对称分布的,则在平均数加减3个标准差之内的数据大约有(  )。

A.68%

B.90%

C.95%

D.99%

【答案】D

(3)切比雪夫不等式

如果一组数据不是对称分布,经验法则就不再适用,这时可使用切比雪夫不等式,它对任何分布形状的数据都适用。

对于任意分布形态的数据,根据切比雪夫不等式,至少有(1-1/k2)的数据落在k个标准差之内。其中k是大于1的任意值,但不一定是整数。对于k=2,3,4,该不等式的含义是:

至少有75%的数据落在平均数±2个标准差的范围之内;

至少有89%的数据落在平均数±3个标准差的范围之内;

至少有94%的数据落在平均数±4个标准差的范围之内。

例5:如果一组数据不是对称分布的,根据切比雪夫不等式,对于k=4,其意义是(  )。

A.至少有75%的数据落在平均数加减4个标准差的范围之内

B.至少有89%的数据落在平均数加减4个标准差的范围之内

C.至少有94%的数据落在平均数加减4个标准差的范围之内

D.至少有99%的数据落在平均数加减4个标准差的范围之内

【答案】C

四、相对离散程度:离散系数

对于平均水平不同或计量单位不同的不同组别的变量值,是不能用标准差直接比较其离散程度的。为消除变量值水平高低和计量单位不同对离散程度测度值的影响,需要计算离散系数。

离散系数也称为变异系数,它是一组数据的标准差与其相应的平均数之比。其计算公式为:

离散系数是测度数据离散程度的相对统计量,其作用主要是用于比较对不同样本数据的离散程度。离散系数大,说明数据的离散程度也大;离散系数小,说明数据的离散程度也小。

例6:甲、乙两班同学参加了统计学期末考试,结果两班的平均成绩,标准差,则统计学成绩离散程度较大的是(  )。

A.甲班离散程度较大

B.乙班离散程度较大

C.两班离散程度一样大

D.无法判断

【答案】B

【解析】为了消除变量值水平高低和计量单位不同对离散程度测度值的影响,需要计算离散系数,其计算公式为:,标准差系数越大,离散程度越大。由于,所以乙班学生统计学成绩离散程度较大。

例7:两组数据的平均数不等(平均数都为正值),但标准差相等,则(  )。

A.平均数小的,离散程度大

B.平均数大的,离散程度大

C.平均数小的,离散程度小

D.两组数据的离散程度相同

【答案】A

【解析】变异系数是指一组数据的标准差与其相应的平均数之比,是用来测度数据离散程度的相对统计量。其计算公式为:。可见,在标准差相等的情况下,平均数小的,其变异系数大,即离散程度较大。