第三节 关于分布的几个概念
一、抽样分布
统计推断的三个中心内容:抽样分布、参数估计和假设检验。
在总体X的分布类型已知时,若对任一自然数n,都能导出统计量
的分布的数学表达式,此种分布称为抽样分布。
样本均值的抽样分布就是指所有可能抽出来的样本的分布。数理统计学的相关定理已经证明:即样本均值的期望就是总体均值。
在重复抽样时,样本均值的标准差为总体标准差σ2的1/n,即
在不重复抽样时,样本均值的标准差为:
其中,为修正系数,对于无限总体进行不重复抽样时,可以按照重复抽样计算,当总体为有限总体,N比较大而n/N≥5%时,修正系数可以简化为1-n/N,当N比较大而n/N<5%时,修正系数可以近似为1,即可以按重复抽样计算。
并且可以证明当总体服从正态分布时,样本均值一定服从正态分布,即有:时,
若总体为未知的非正态分布时,只要样本容量足够大(通常要求),样本均值仍会接近正态分布,其分布的期望值为总体均值,方差为总体方差的。这就是统计上著名的中心极限定理(central limit theorem)。这一定理可以表述为:从均值为、方差为的总体中,抽取样本量为的随机样本,当充分大时(通常要求),样本均值的分布近似服从均值为μ、方差为的正态分布。
如果总体不是正态分布,当为小样本时(通常),样本均值的分布则不服从正态分布。
例4:重复抽样与不重复抽样相比,其样本均值抽样分布的标准差( )。
A.重复抽样大
B.不重复抽样大
C.一样大
D.不一定
【答案】A
二、渐近分布
设X1,X2,…,是抽自正态总体的一个样本,可以证明当时,和,所以统计量的渐近分布为N(0,1)。
三、随机模拟获得的近似分布
设有一个统计量,为了获得统计量的分布函数,其中为样本容量。我们可连续作一系列类似试验,每次试验都是从总体中随机抽取容量为的样本,然后计算其统计量的值。当这种试验进行了次时,就得到统计量的个观测值:。根据这个观测值可做其经验分布函数。可以证明,这种经验分布函数是统计量(在样本容量固定的条件下)的分布的一个很好的近似分布。这种寻求统计量的方法就是反复地从总体中抽样,这种抽样完全可由计算机来实现。由此得到的统计量的分布就是随机模拟法所获得的近似分布。