2.2 度量中心趋势
在数据预处理之前,需要熟悉数据,这样才能知道学习什么能够有助于数据的预处理。接下来,通过数据的基本统计描述获得属性值的更多相关知识。本节介绍度量中心趋势的各种方法,这些度量方法包括算术平均数、几何平均数、中位数、百分位数和众数。
1.算术平均数
算术平均数又称为均值,是一种最基本、最常用的数据集中趋势度量。变量xj表示在j指标上所有样本点的取值分布,则假设x1j,x2j,…,xnj是数据表中变量xj的n个观测值(变量值),那么这组观测值的均值为:
以上属于简单的算术平均数。还有一种特殊的加权平均数,即对于变量xj的每个观测值xij都有一个权重wij与之相关联,其中i=1,2,…,n,j=1,2,…,p,权重反映了相对应值的显著性、重要性或出现的频率等。在这种情况下,加权平均值为:
例2.1 假设5种不同的平喘药中麻黄碱含量(单位为ng/ml)分别为0.90、0.74、0.60、0.54、0.42,这5种平喘药中,麻黄碱所起药效所占的权重分别为40%、20%、15%、5%、20%,试求出这5种平喘药中麻黄碱的平均含量和加权平均含量。
使用式(2.1)求麻黄碱的平均含量,有:
使用式(2.2)求麻黄碱的加权平均含量,有
因此,这5种平喘药中麻黄碱的平均含量是0.64ng/ml,加权平均含量是0.709ng/ml。
均值虽然是描述一组数据集常用且有效的重要参量,但它并不是唯一或最好的度量数据中心方法。在一组怪异(分布)数据中,均值容易受极端值(如离群点)的影响[2]。例如,班上学生的平均身高可能会被少数个子很矮的学生显著地拉低。类似地,公司员工的平均薪水可能被收入很高的管理人员显著地拉高。在这种情况下,我们可采用截尾均值来减少极端值的影响。截尾均值是把一组数据集的相同数量的最高和最低极端值去除后进行的均值运算。
2.几何平均数
由上面的阐述可知,均值受极端数据的影响较大。因此,当一组数据存在极端值时,我们可以使用几何平均数、中位数或众数等度量方法来描述数据的集中趋势。下面,讨论几何平均数。
几何平均数适用于计算平均速度和平均增长速率。几何平均数也分为简单几何平均数和加权几何平均数。
简单几何平均数是n个变量连续乘积的n次方根。其计算公式可以表示为:
哪些时候用几何平均数合适呢?第一,由于几何平均数受极端数据的影响较小,基于这点,它可用于怪异(分布)数据。第二,当一组数据中任何两个相邻数据之比接近于一个常数,即数据具有等比或近似等比的关系。例如,计算平均增长速率。然而,几何平均数也存在一个缺点,即当观测值有负值时,计算出的几何平均数可能会是负数或虚数。
例2.2 一种平喘药从2016年到2019年收益率依次为4.5%、2.0%、3.5%、20%,计算该平喘药在这四年中的平均收益率。
平均收益率为107.27%-1=7.27%。
3.中位数
对于倾斜数据,中位数能够更好地度量数据中心。中位数,又称为中值。中位数是一组按从大到小或从小到大顺序排列的数据中处于中间位置的数。它把数据值较大的一半和较小的一半分开,这里用m0.5来表示中位数。假设x1j,x2j,…,xnj是数值变量xj按递增顺序排列的n个观测值。
当n为奇数时,则
当n为偶数时,则:
中位数不同于均值,它不受极端值的影响,能更好地代表倾斜数据的集中趋势。
例2.3 现有A、B两组数据,A组数据有0.90、0.54、0.60、0.74、0.42,B组数据有0.90、0.50、0.60、0.65、0.28、0.42。请分别找出A、B两组数据的中位数。
对于A组数据:
按递减顺序排序:0.90、0.74、0.60、0.54、0.42;
A组数据有5个值,n为奇数,按公式计算,得。
对于B组数据:
按递减顺序排序:0.90、0.65、0.60、0.50、0.42、0.28;
B组数据有6个值,n为偶数,按公式计算,得
因此,A组数据的中位数为0.60,B组数据的中位数为0.55.
当数据集很大时,中位数的计算量会很大。然而,我们可以通过对数据分组来求数值属性的近似中位数。以一维数据为例,假设根据数据的观测值划分区间,并且每个区间的观测值的个数(即频率)已知,令包含中位数的区间为中位数区间[3],则整个数据集的近似中位数median可以表示为:
其中,L1是中位数所在区间的下界,n数据集中观测值的个数,fl是低于中位数区间的所有区间的频率,width是区间的宽度,fmedian是中位数区间的频率。
4.众数
众数是数据集中出现次数最多的数,也是另一种中心趋势度量。一个数据集中可能没有众数(即每个观测值仅出现一次)或者有好几个众数。通常,我们称一个众数的数据集是单峰的,具有两个或两个以上的众数的数据集是多峰的。在统计实践中,当数据分布不均或数据出现不同时,可以用众数作为“数据中心”的粗略估计。
众数适用于度量非数值型数据中心趋势,由于这类数据没有明显的次序,它可能无法良好地使用中位数和均值。例如,6种平喘药中含量最多的药物成分分别是麻黄碱、麻黄碱、甘草苷、麻黄碱、伪麻黄碱、甘草苷,则这组数据的众数为麻黄碱,且该数据集是单峰的。
图2.1 变量xj的数据分布图
5.百分位数
以一维数据为例,假设将变量xj的数据值按从小到大排列,我们可以挑选一些数据点把数据分布划分成间隔相等的连贯集。分位数,又称分位点,是指将一个随机变量的概率分布范围分为几个等份的数值点。例如,用99个数据点,把一组按从小到大排列的观测值划分成100等分,百分位数就是这99个数据点。由图2.1可以看出,比第25个百分位数小的数据个数占数据总个数的25%,比第25个百分位数大的数据个数占数据总个数的75%。百分位数也不受极端值的影响,能够度量倾斜数据的集中趋势。
实际应用中常见的还有2分位数和4分位数。2分位数能把数据分布划分成高低各一半的连贯集,2分位数又称为中位数。