1.3.1 均值_数据科学中的实用统计学（第2版）-QQ阅读男生玄幻网

上QQ阅读APP看书，第一时间看更新

1.3.1　均值

最基本的位置估计就是均值，或称平均值。用所有值的和除以值的数量，就可以得到均值。看一下这个整数集合：{3, 5, 1, 2}。它的均值就是 (3+5+1+2)/4=11/4=2.75。符号 $\bar{x}$ （读作“ 拔”）用来表示总体中一个样本的均值。对于一个有个值（ $x_1,x_2,\cdots,x_n$ ）的集合来说，它的均值计算公式为：

均值 $=\bar{x}=\dfrac{\sum\nolimits^n_{i=1}x_i}{n}$

　（或）表示记录或观测的总数。在统计学中，如果表示总体中观测的总数，就使用大写的；如果表示总体中的一个样本，就使用小写的。在数据科学中，这种区分无关紧要，所以大小写均可。

均值的一个变体是截尾均值，它的计算方法是先对数据进行排序，然后在两端去掉一定数量的值，再对剩下的值计算平均数。可以将排好序的值表示为 $x_{(1)},x_{(2)},\cdots,x_{(n)}$ ，其中 $x_{(1)}$ 是最小值， $x_{(n)}$ 是最大值，那么去掉了个最小值和个最大值的截尾均值计算公式为：

截尾均值 $=\bar{x}=\dfrac{\sum\nolimits^{n-p}_{i=p+1}}{n-2p}$

截尾均值消除了极端值的影响。例如，在国际跳水比赛中，5 名裁判中的最高分和最低分被去掉，最后得分是其余 3 名裁判给出的分数的平均数。这使得一名裁判很难操纵选手得分，即使他可能会偏向自己国家的运动员。截尾均值的用途非常广泛，很多情况下，人们更倾向于使用截尾均值而非普通均值。参见 1.3.2 节，该节进行了进一步的讨论。

另外一种均值是加权均值，计算方法是将每个数据值 x_i 乘以一个用户定义的权重 w_i ，再用它们的总和除以权重的总和。计算加权均值的公式如下：

加权均值 $\bar{x}_w=\dfrac{\sum\nolimits^n_{i=1}w_ix_i}{\sum\nolimits^n_{i=1}w_i}$

使用加权均值的两个主要原因如下。

有些值本质上就比其他值更多变，而高度可变的观测应该被赋予更低的权重。例如，如果我们要计算来自多个传感器的数据平均值，其中有一个传感器的精确度更低，那么就应该降低来自这个传感器的数据的权重。
收集到的数据不能同等地代表我们想测量的不同群组。例如，因为某种在线实验执行方法的问题，我们可能得不到一个能够精确反映出用户库中所有群组的数据集合。为了对此进行修正，我们可以给代表性较差的群组中的值赋予较高的权重。