上QQ阅读APP看书,第一时间看更新
1.3.1 均值
最基本的位置估计就是均值,或称平均值。用所有值的和除以值的数量,就可以得到均值。看一下这个整数集合:{3, 5, 1, 2}。它的均值就是 (3+5+1+2)/4=11/4=2.75。符号 (读作“ 拔”)用来表示总体中一个样本的均值。对于一个有 个值()的集合来说,它的均值计算公式为:
均值
(或 )表示记录或观测的总数。在统计学中,如果表示总体中观测的总数,就使用大写的 ;如果表示总体中的一个样本,就使用小写的 。在数据科学中,这种区分无关紧要,所以大小写均可。
均值的一个变体是截尾均值,它的计算方法是先对数据进行排序,然后在两端去掉一定数量的值,再对剩下的值计算平均数。可以将排好序的值表示为 ,其中 是最小值, 是最大值,那么去掉了 个最小值和 个最大值的截尾均值计算公式为:
截尾均值
截尾均值消除了极端值的影响。例如,在国际跳水比赛中,5 名裁判中的最高分和最低分被去掉,最后得分是其余 3 名裁判给出的分数的平均数。这使得一名裁判很难操纵选手得分,即使他可能会偏向自己国家的运动员。截尾均值的用途非常广泛,很多情况下,人们更倾向于使用截尾均值而非普通均值。参见 1.3.2 节,该节进行了进一步的讨论。
另外一种均值是加权均值,计算方法是将每个数据值 乘以一个用户定义的权重 ,再用它们的总和除以权重的总和。计算加权均值的公式如下:
加权均值
使用加权均值的两个主要原因如下。
- 有些值本质上就比其他值更多变,而高度可变的观测应该被赋予更低的权重。例如,如果我们要计算来自多个传感器的数据平均值,其中有一个传感器的精确度更低,那么就应该降低来自这个传感器的数据的权重。
- 收集到的数据不能同等地代表我们想测量的不同群组。例如,因为某种在线实验执行方法的问题,我们可能得不到一个能够精确反映出用户库中所有群组的数据集合。为了对此进行修正,我们可以给代表性较差的群组中的值赋予较高的权重。