2.3 度量离散程度
本节我们将介绍度量数据离散程度的方法。极差、方差、标准差和变异系数都是评估数值数据分散程度的度量。
1.极差
极差又称为全距,它是数据集中最大值与最小值之差,用R表示。在统计学中常用极差来刻画一组数据的离散程度,以及反映的是变量分布的变异范围和离散幅度。极差越大,离散程度越大,反之,离散程度越小。
例2.4 求例2.1中数据的极差。
最大值:0.90。
最小值:0.42。
极差:R=0.90-0.42=0.48。
2.方差
方差是描述数据离散程度的另外一种度量方法。在统计中,方差是数据集中每个观测值和数据集均值之差的平方值的平均数,方差用σ2表示。方差越大,离散程度越大。假设x1j,x2j,…,xnj是数值变量xj的n个数值,方差的计算公式如下:
3.标准差
标准差σj是方差的开平方根,也可以度量的数据离散程度。同方差一样,标准差越大,离散程度越大。当σj=0时,数据不发散,即所有的观测值都相同;否则σj>0。标准差的计算公式如下:
例2.5 求例2.1中的方差和标准差。
在例2.1中,我们得到均值,n=5,使用公式(2.7)和公式(2.8),得到:
因此,该小组的方差为0.02752,标准差为0.16589。
4.变异系数
一般来说,人们习惯用均值来反映客观现象总体各单位某一数量标志的一般水平,如平均分数、平均收入等。但平均数只能反映总体的一般数量水平,不能说明总体各单位标志值的数量差异程度,不能揭示其离散程度,这时可以用变异系数来度量。
变异系数也称为离散系数或标准差系数,它是反映数据集中各观测值的差异程度或离散程度的指标。变异系数是观测值的标准差和均值之比,用CVj表示。变异系数计算公式如下:
由式2.9可知,变异系数的大小同时受标准差和均值的影响。变异系数只有在均值不为0时才有意义。
例2.6 假设A批次五种平喘药中麻黄碱含量(单位为ng/ml)依次为0.90、0.74、0.60、0.54、0.42,B批次五种平喘药中麻黄碱含量(单位为ng/ml)依次为0.86、0.74、0.64、0.56、0.40。请用变异系数说明这两批次平喘药中麻黄碱的变异程度。
对于A组:
对于B组:
因为A批次平喘药中麻黄碱的变异系数小于B批次平喘药中麻黄碱的变异系数,所以A批次平喘药中麻黄碱的变异程度更小。