数据科学中的实用统计学(第2版)
上QQ阅读APP看书,第一时间看更新

1.3.1 均值

最基本的位置估计就是均值,或称平均值。用所有值的和除以值的数量,就可以得到均值。看一下这个整数集合:{3, 5, 1, 2}。它的均值就是 (3+5+1+2)/4=11/4=2.75。符号 \bar{x} (读作“x 拔”)用来表示总体中一个样本的均值。对于一个有 n 个值(x_1,x_2,\cdots,x_n)的集合来说,它的均值计算公式为:

均值 =\bar{x}=\dfrac{\sum\nolimits^n_{i=1}x_i}{n}

 N(或 n)表示记录或观测的总数。在统计学中,如果表示总体中观测的总数,就使用大写的 N;如果表示总体中的一个样本,就使用小写的 n。在数据科学中,这种区分无关紧要,所以大小写均可。

均值的一个变体是截尾均值,它的计算方法是先对数据进行排序,然后在两端去掉一定数量的值,再对剩下的值计算平均数。可以将排好序的值表示为 x_{(1)},x_{(2)},\cdots,x_{(n)},其中 x_{(1)} 是最小值,x_{(n)} 是最大值,那么去掉了 p 个最小值和 p 个最大值的截尾均值计算公式为:

截尾均值 =\bar{x}=\dfrac{\sum\nolimits^{n-p}_{i=p+1}}{n-2p}

截尾均值消除了极端值的影响。例如,在国际跳水比赛中,5 名裁判中的最高分和最低分被去掉,最后得分是其余 3 名裁判给出的分数的平均数。这使得一名裁判很难操纵选手得分,即使他可能会偏向自己国家的运动员。截尾均值的用途非常广泛,很多情况下,人们更倾向于使用截尾均值而非普通均值。参见 1.3.2 节,该节进行了进一步的讨论。

另外一种均值是加权均值,计算方法是将每个数据值 x_i 乘以一个用户定义的权重 w_i,再用它们的总和除以权重的总和。计算加权均值的公式如下:

加权均值 \bar{x}_w=\dfrac{\sum\nolimits^n_{i=1}w_ix_i}{\sum\nolimits^n_{i=1}w_i}

使用加权均值的两个主要原因如下。

  • 有些值本质上就比其他值更多变,而高度可变的观测应该被赋予更低的权重。例如,如果我们要计算来自多个传感器的数据平均值,其中有一个传感器的精确度更低,那么就应该降低来自这个传感器的数据的权重。
  • 收集到的数据不能同等地代表我们想测量的不同群组。例如,因为某种在线实验执行方法的问题,我们可能得不到一个能够精确反映出用户库中所有群组的数据集合。为了对此进行修正,我们可以给代表性较差的群组中的值赋予较高的权重。