2.4 正态性检验
2.4.1 概述
正态性检验是对一组测量值是否具有正态分布特性所进行的检验。
进行测量值的统计处理和统计检验时,一般都是在假定数据服从正态分布的基础上。但测量值是否服从正态分布,尚需对数据进行正态性检验。
常用的正态性检验有夏皮罗-威尔克检验、偏态-峰态检验、爱泼斯-普利检验、达戈斯提诺检验等,在GB/T 4882中给出了这几种检验的方法和使用条件。除此以外,χ2拟合优度检验、柯尔哥莫洛夫检验、秩和检验等也可应用于测量值的正态性检验,但这些检验方法没有针对正态分布的特点,功效较低,并未在现行标准中使用。早期采用的绘制直方图或用正态概率纸检验法较为简单、直观,但不严密。
2.4.2 夏皮罗-威尔克(Shapiro-Wilk)检验法
将样本测量值xi按由小到大的顺序排列,计算统计量W:
(2-41)
式中,i是测量值由小到大顺序排列的序次;对测量值数目n是偶数时,k=n/2,n是奇数时,k=(n-1)/2;系数ai,n是与测量值数目n及测量值序次i有关的系数。表2-13列出了不同测量值数目(n≤50)的系数ak,n值;为样本均值。
表2-13 夏皮罗-威尔克检验系数ai,n(i=1~k)数值
W是与样本测量值分布有关的统计量,其值在0~1之间。如果样本测量值来自一个正态总体,测量值近似呈对称分布,W值应接近于1;当样本测量值不来自正态总体,则测量值的分布是不对称的,W值小于1。当测量值偏离正态分布愈远,不对称性愈大,W值愈小。
W(n,α)是与测量次数n和显著性水平有关的临界值,见表2-14。通常,当W≥W(n,0.05),认为测量值服从正态分布,当W(n,0.05)>W≥W(n,0.01),认为测量值近似服从正态分布,而W<W(n,0.01)时,认为测量值不服从正态分布。
表2-14 夏皮罗-威尔克检验临界值W(n,α)
【例2-16】 有9个实验室对某碳素钢标准物质中硅含量进行定值分析,共给出36个测量结果:0.336,0.361,0.349,0.349,0.340,0.359,0.348,0.349,0.344,0.356,0.348,0.349,0.343,0.357,0.346,0.352,0.344,0.355,0.348,0.349,0.345,0.354,0.347,0.350,0.345,0.353,0.347,0.350,0.345,0.352,0.346,0.351,0.346,0.352,0.346,0.350,试评价其测量结果是否符合正态分布。
解 n=36,k=18,将所有测量结果由小到大排列,将前18个结果按由小到大列于表2-15的xk项,而将后18个数据按由大到小列于xn+1-k项,列表计算xn+1-k-xk,计算各项αk,n(xn+1-k-xk)值,ak,n值由表2-13查得。
表2-15 硅量的夏皮罗-威尔克检验参数计算表
计算得
由36个测量结果得,标准差s=0.005067,则:
查表2-14,W(36,0.05)=0.935,W>W(36,0.05),定值分析测量结果符合正态分布。
2.4.3 偏态-峰态系数检验
正态分布函数以平均值为中心是对称的,对称点峰高受测量结果离散性制约。若样本为非正态总体,要不分布曲线不对称,峰位置产生左偏或右偏,要不峰过高或过低。峰的偏移可用偏度来表征,峰过高或过低可用峰度来表征。通过以下的计算可得表征样本测量结果的偏度系数和峰度系数。
对样本的测量值计算:
计算偏度系数A,用于检验不对称性,
(2-42)
计算偏度系数B,用于检验峰态,
(2-43)
对于服从正态分布的测量值,偏态系数A值应小于临界值A1,峰态系数B应落在临界区间B1~B'1。A1和B1~B'1的值与要求的概率水平和测量次数n有关,见表2-16。理论上讲,对完全的正态分布,其偏态系数A应为0,峰态系数B应为3。若样本测量值为非正态总体,发生峰的显著偏移,或峰过高、过低,则A和B偏离临界值。由此根据样本测量值的偏度系数A和峰度系数B来判断其分布的正态性。
表2-16 偏态-峰态检验临界值
【例2-17】 有33个实验室参加白云石中氧化镁含量的能力验证试验,测量结果数值分别为19.54,19.18,19.16,19.24,19.10,19.19,18.95,19.14,19.10,19.49,19.26,19.43,18.72,19.19,19.37,19.09,19.14,19.17,19.10,19.14,19.16,19.51,19.48,19.05,19.36,19.01,19.21,19.02,19.30,19.34,19.01,19.08,18.98,该测量结果是否符合正态分布。
解 采用偏态-峰态系数法检验其正态性。
根据测量结果计算得
查表2-16,n=33,α=0.05,A1=0.64,B1区间2.00~4.10,由于A<0.64,2.00<B<4.10,表明33个实验室的能力验证结果符合正态分布。
2.4.4 爱泼斯-普利(Epps-Pulley)检验
爱泼斯-普利检验适用于n≥8,小样本(n<8)对偏离正态分布的检验不太有效。
由n个待检验的测量值xj,计算和m2和统计量TEP,
(2-44)
式中,k=2,3,…,n。测量值的排序是随意的(不一定是升序或降序),但应注意在整个计算过程中选定的次序须保持不变。
统计量TEP与一定显著性水平的临界值Tn,α比较,当统计量TEP不大于其临界值,则认为在该显著性水平下测量值遵循正态分布。临界值Tn,α见表2-17。图2-8给出了计算统计量TEP的程序流程。
表2-17 爱泼斯-普利检验的临界值Tn,α
图2-8 爱泼斯-普利检验中统计量计算流程图
【例2-18】 有10个测量值4.9、6.5、11.0、5.0、10.9、13.1、14.0、11.4、14.5、12.7,试用爱泼斯-普利法进行正态性检验。
解 将测量值xj列于表2-18的第2列(注意,表中xj的排序可以是随意的),计算得=10.4,m2=11.8580。
于表2-18的第3列,固定下标k=2,j=1,计算bkj,此列bkj仅1项
第4列,固定下标k=3,j=1、2,计算bkj,此列bkj有2项,以下类推:
第11列,固定下标k=10,j=1,2,…,9,计算bkj,此列bkj有9项
计算表2-18中k=2,3,…,10各列的和(∑),各列总和B(∑∑),表列中的bkj值共有n(n-1)/2=45项。计算得:
表2-18 检验统计量TEP的计算
计算各j的aj值(j=1,2,…,10),共10项,计算值列于第12列,计算其和A:
计算统计量
由表2-17知,n=10,α=0.05时,TEP检验的临界值为0.357,统计量不大于临界值,可认为在0.05显著性水平测量值遵循正态分布。
2.4.5 达戈斯提诺(D’Agostino)检验
将测量值按由小到大排列,计算统计量
(2-45)
式中的K值,当n是偶数时为1~n/2,n是奇数时为1~(n-1)/2;
计算的统计量Y用达戈斯提诺检验临界区间(表2-19)判断测量值分布的正态性。当显著性水平为0.05时,Y值落在临界区间a~a范围内,显著性水平为0.01时,Y值落在临界区间b~b范围内,则认为测量值服从正态分布。
表2-19 达戈斯提诺检验临界区间
【例2-19】 表2-20给出了61个样本硅含量的测量结果,检验测量结果是否呈正态分布。
表2-20 硅量的达戈斯提诺检验计算参数表
解 样本数为奇数,K值为1至(61-1)/2=30,第31个数据(x31=0.378)在计算中用不上。为计算方便,于表2-20中将xK按由小到大自上而下排序,xn+1-K按由大到小自上而下排序,计算xn+1-K-xK项和项,由Excel工作表计算得:
计算的Y值介于相应临界值的a~a和b~b区间,可认为在0.05和0.01显著性水平,测量结果符合分正态分布。
2.4.6 正态性检验方法的应用
许多统计检验方法都是建立在测量值遵从正态分布的基础上,但在有些情况下,如被测量值分布范围特别宽或含量特别低(痕量和超痕量),测量值并不总是遵从正态分布。因此,在进行数据处理时,若事先不知道测量值的分布类型,需先对测量值进行正态性检验。夏皮罗-威尔克检验、爱泼斯-普利检验和达戈斯提诺检验是在分布与正态偏离形式没有任何事先知道的情况下进行,称为公用型检验方法。夏皮罗-威尔克检验适用于小样本(3≤n≤50),爱泼斯-普利检验在n≥8时使用,而达戈斯提诺检验用于大样本(50≤n≤1000)检验。偏度-峰度检验法和柯尔莫哥洛夫检验法既适合于大样本又适合小样本的检验。
从各检验方法依据的原理看,夏皮罗-威尔克检验、爱泼斯-普利检验和达戈斯提诺检验基于正态分布的对称性;偏度-峰度检验较为严格,适用于8≤n≤5000样本的检验,它既考察了正态分布的对称性,又利用了正态分布的离散性。
各种检验方法的原理和步骤不尽相同,但其出发点是一致的,都是事先假设样本测量值来自正态总体,再将假设的总体分布特性与样本实际分布特性进行比较。若两者一致,则接受事先的原假设;若样本的实际分布特性在统计上存在显著性差异,则不接受原假设。
正态分布统计量计算过程中,应保持足够的有效数字。样本测量值,特别是大样本测量值的正态性检验有一定的计算量,但利用Excel工作表计算并不困难,有一些统计软件可直接处理测量数据,进行正态性检验。