1.3.2 中位数和健壮的估计
中位数是有序数据列表中的中间数值。如果数据值的数量是个偶数,那么中间值实际上不是数据集中的一个值,而是将有序数据分为上半部分和下半部分的两个值的平均数。与使用了所有观测的均值相比,中位数仅依赖于有序数据中心位置的那些值。虽然这似乎是一个劣势,但因为均值对数据敏感得多,所以在很多实例中,中位数是一个更好的位置度量。假设我们想研究一下西雅图市华盛顿湖附近地区典型家庭的收入情况。在比较麦地那地区和温德米尔地区的时候,使用均值会得到迥异的结果,因为比尔•盖茨就住在麦地那。如果使用中位数,那么不管比尔•盖茨多么富有,都不会有什么影响——中间观测的位置总是保持不变。
与使用加权均值的理由一样,我们也可以计算出加权中位数。与中位数一样,尽管每个数据值都有一个关联权重,我们还是先对数据进行排序。加权中位数并不是中间数值,而是使得有序列表中上半部分的权重总和与下半部分的权重总和相等的那个值。与中位数一样,加权中位数对于离群值也是很健壮的。
离群值
中位数被认为是对位置的健壮估计,因为它不受离群值(极端情况)的影响,而离群值会使结果产生偏差。离群值是数据集中与其他值距离非常远的任意值。在各种数据摘要和统计图中,对离群值的表示都遵循某种惯例(参见 1.5.1 节),尽管如此,离群值的确切定义还是有些主观的。虽然离群值本身并不是一个无效或错误的数据值(如前面比尔•盖茨的例子),但它通常是数据误操作的结果,例如,混用了不同单位(如千米与米)的数据或对传感器的错误读取。如果离群值是由数据误操作造成的,就会使均值成为一个糟糕的位置估计,但中位数依然有效。在任何情况下,离群值都应该被识别出来,而且需要进一步的调查研究。
异常检测
在一般的数据分析中,离群值有时候包含丰富的信息,有时候就是个干扰。与之不同的是,异常检测关注的重点就是离群值,而绝大多数其他数据的用途就是定义“正常”情况,以测量出与之不同的异常情况。
中位数不是唯一健壮的位置估计,实际上,截尾均值也被广泛用于避免离群值的影响。例如,除非是非常小的数据集,否则都可以截掉 10%(一种常用选择)的底端数据和 10% 的顶端数据,以使数据不受离群值的影响。截尾均值可以看作中位数与均值的一种折中方案:它对于处理数据中的极端值非常健壮,同时也使用了更多数据来计算位置估计。
其他健壮的位置度量
统计学家们开发出了很多其他位置估计量,主要目标是得到一种比均值更健壮也更高效(即能更好地识别出数据集中的微小位置差异)的统计量。尽管这些方法对小数据集可能有用,但对中等规模甚至大型的数据集来说,可能没有多大作用。