2.3 方差检验
2.3.1 概述
多次重复测量时,由于受各种因素的影响,测量值不可能完全相同,它们之间的差异称为变差。变差的大小通常以总体的方差或样本的标准差来表示。方差或标准差的大小反映测量结果的精密度,在试验研究中也可用来衡量试验条件的稳定性或变动性。
在分析测试中,由于测量误差的存在,同一个人在重复性条件下测量,各次测量所得结果不尽相同。同样,同一个人对同一样本分批测量,每批测量结果的精密度也不尽相同,所得的标准差也不同。而不同人、不同仪器及不同条件下的测量结果的差别更是客观存在的。假定分析人员甲、乙对相同样本进行测试,甲测量结果的方差稍大于乙,如果其测量的变动范围都在误差的允许范围内,就很难说甲测量的精密度一定低于乙(或说甲的操作水平低于乙);反过来,不管甲、乙的测量方差有多大差别,也不能认为两者测量精度一致。现在的问题是,如何根据测量的数据来判断两者的测量方差是否一致,或两者测量的精度是否存在显著性差异。要解决该问题,就要借助于数理统计中的方差检验(方差一致性检验、方差齐性检验)。
方差检验的目的就是从统计上比较和判断各方差之间(两个或多个)是否存在显著性差异。在分析测试中,就是比较和判断各分析方法或测量结果之间的精密度是否一致。
在分析实践中,有时要比较不同分析方法的测量精密度,不同分析人员测量结果的变动性,不同时段仪器的稳定性或测量值的变动性,或不同时段产品质量的波动等,并通过对这些测量数据的变动性、产品质量波动数据的分析来判断测量或生产中是否有大的变差。如果有大的方差存在,就要检查大的方差是随机因素引起的,还是出现有异常情况,并采取必要的措施消除或减小这些异常因素。例如,某实验室常规检测中,某日发现测量的方差显著变化,提醒人们注意,是否存在对某个因素的失控,需迅速查明原因并采取改进措施。在分析测试和产品质量检验实践中,经常采用方差检验等统计检验来发现和处理这些问题。
在分析测试条件的研究中,测量值的变差往往是由多个因素引起的,既有随机因素,又可能是某个固定因素(如试验条件)改变引起的,而两者变差又往往交织在一起。试验研究的目的是希望从随机因素和固定因素引起的总方差中,将不同因素引起的方差分解出来,并将各方差在一定条件下进行比较,以确定不同因素引起方差的大小,从而了解各试验因素对测量结果的影响,并据此选择合适的试验条件。这种对试验方差的分解、分析和比较,就是数理统计中的方差分析。在生产实践和科学试验研究中,通过对大量试验数据进行方差分析,找出各因素的变化规律,从中选择和优化合适的生产条件和试验条件,以提高产品的质量和试验的成功率。方差分析在分析测试和生产实践中有着广泛的应用,有关方差分析的内容将在第3章中介绍。
在进行方差检验和方差分析前,有必要了解在正态分布下导出的χ2分布和F分布,其分布的统计量在方差检验和方差分析中是十分有用的。
2.3.2 χ2分布
χ2分布,中文称为卡方分布,是1900年由Pearson推导出来的。
若xi是遵守正态分布N(μ,σ2)的随机变量,其中平均值μ和方差σ2已知。样本的均值和标准差分别是和s,则统计量:
(2-23)
(2-24)
分别服从自由度ν=n和ν=n-1的χ2分布。卡方分布是正态分布派生出来的一个分布,其概率密度分布为:
(2-25)
式中,G(ν/2)是伽马函数。
可以证明:
(2-26)
图2-5表示了不同自由度(ν=n-1)的χ2分布概率密度曲线,曲线形状随自由度不同而变化,左右不对称,并向右倾斜,随着自由度增大,曲线倾斜度减小。当ν=1时,曲线单调下降并趋于零;当ν=2时,曲线是一个指数曲线,呈单调下降趋于零;当ν=3时,曲线由原点开始上升至χ2=1,然后单调下降趋于零;当ν>3时,曲线呈单峰形状,其峰的位置可以用极值方法求得;当ν>2时,曲线单峰位于χ2=ν-2处;ν越小,曲线越不对称,ν越大,曲线趋于对称并近于正态分布形状,但χ2分布越分散。
图2-5 χ2分布的概率密度曲线
χ2分布的一个重要特性是χ2的可加性,即若干个χ2分布的和也服从χ2分布。
附录给出了不同自由度ν和显著性水平α的上侧分位数值表。右侧的面积恰好等于显著性水平α,即。
例如,表中,表示ν=10时,概率。
对给定的显著性水平α,在χ2分位数表中与自由度ν对应的两侧临界值和,有
(2-27)
表示χ2分布的双侧置信区间。
例如,对显著性水平α=0.10,ν=10,,,表示
由此,由样本求得的χ2值落在大于或小于区间的概率α是很小的,χ2值落在该区间,属于小概率事件。小概率事件在一次测定中实际上是不可能发生的,而现在居然出现了,表明样本方差s2与总体方差有显著性差异。
χ2分布在标准差的显著性检验、标准差的置信区间、正态分布检验中是十分有用的。相关内容将在随后章节中阐述。
2.3.3 F分布
设x1、x2、…,xn为总体N(μ1,)的一个随机样本,y1、y2、…、yn为总体N(μ2,)的一个随机样本,两个样本相互独立,其平均值和方差分别为:
由于与分别遵守自由度(n1-1)和(n2-1)的χ2分布:
则
若成立,则:
即遵守自由度为(n1-1)和(n2-1)的F分布,因此,
(2-28)
用统计量F进行方差的显著性检验,称为F检验。
F分布的概率密度函数可表示为:
(2-29)
F分布的特点是F值随着自由度ν1、ν2的变化而变化,理论分布的F值从0到∞,其平均值是1,而F=1时,其分布并不是最大值,所以F分布是不对称的。图2-6和图2-7分布表示F分布的概率密度曲线和F分布概率示意图。F分布的概率密度曲线是偏态的,自由度越小,偏态越严重;当ν1、ν2都较大时,F分布近似于正态分布。
图2-6 F分布的概率密度曲线
图2-7 F分布概率示意图
为应用上的方便,制成F分布表,它给出了不同显著性水平α和不同自由度ν1、ν2组合的单侧显著性检验的临界值。α是指由F=Fα至F→∞的概率,F落在这区间的事件是小概率事件。小概率事件在一次测定中实际上是不可能发生的,而如果由样本计算的F落入这个区间,即F≥Fα,表示样本拒绝原假设H0:=,说明样本的标准差s1与s2有显著性差异。
编制的F分布临界值表是将方差大的作分子,方差小的作分母,所以在由样本计算F值时,也应将样本方差()中数值较大的一个作分子,而较小的一个作分母。在分析测试的方差检验和方差分析中,一般将被比较的方差作分子,而将表示实验误差的方差作为分母。
F分布的一个重要性质是:
(2-30)
通常在统计表中只给出,利用这一性质可以计算得值,例如,由F分布表查得F0.05(20,40)=1.84,则F0.95(20,40)=1/F0.05(40,20)=1/1.99=0.50
应该指出,χ2分布和t分布只是F分布的特例,它们之间有如下的关系:
(2-31)
(2-32)
因此,χ2值与t值可由F分布表计算得到。
2.3.4 方差检验
2.3.4.1 检验样本方差是否与原总体方差一致
已知,原假设H0:σ2=,备择假设H1:σ2≠。
根据χ2分布,若xi是遵守正态分布N(μ,σ2)的随机变量,则统计量:
遵循ν=n-1的χ2分布。总体方差的置信区间为:
(2-33)
(2-34)
总体方差落在置信区间外的概率为α,是一个小概率事件。因此,计算统计量,并与相应显著性水平和自由度的和比较,当统计量χ2落在和之间时,原假设成立,表示样本测量方差原总体方差一致。原方差可以是经过认证的方差、长期测量得到的方差或希望达到的方差。反之,当统计量χ2小于,或大于,原假设不成立,表示样本测量方差与原总体方差σ2有显著性差异。
【例2-10】 某分析实验室负责铁精矿中全铁的测试,据长期积累数据,测量的标准差是0.08%,某分析人员对同一铁精矿样本分析8次,测量的标准差为0.11%。试问,在显著性水平α=0.05时,分析人员的测量精度是否与原标准差一致。
解 提出假设,H0:σ2=0.082;H1:σ2≠0.082
计算统计量:
取α=0.05,本例是双侧检验,查χ2分布表,得,
由于16.01>13.23>1.69,在α=0.05显著性水平下接受原假设,认为该分析人员测量精度与原标准差没有显著性差异。
2.3.4.2 检验样本方差是否不大于原总体方差
这是一个上侧检验的问题,检验步骤为:
①已知,提出原假设,,备择假设;
②计算统计量
③确定显著性水平α,查表得相应显著性水平和自由度的;
④当,拒绝原假设,接受备择假设,表示样本测量方差大于原总体方差σ2,反之接受原假设H0。
【例2-11】 车间生产某零件的长度服从正态分布,正常情况下加工精度的方差为0.012mm,现从某日生产的零件中随机抽取25件,得到样本加工精度的方差为0.020mm,试问这批零件长度的加工精度是否合格?
解 提出假设,H0:σ2≤0.012;H1:σ2>0.012
计算统计量:
取α=0.05,本例是单侧检验,查χ2分布表,得。
由于,因此在α=0.05显著性水平下拒绝原假设H0,认为这批零件的加工精度不合格。如果取α=0.01,查χ2分布表,得。,因此在α=0.01显著性水平下接受原假设,认为这批零件的加工精度合格。为进一步提高产品质量,有必要找出造成加工精度变差的原因。
通过本例可见,对原假设做出判断,与所取显著性水平α有关,α越小越不容易拒绝原假设。
2.3.4.3 检验样本方差是否不小于原总体方差
同2.3.4.2,但这是一个下侧检验的问题,检验步骤为:
①已知,提出原假设H0:σ2≥,备择假设H1:σ2<;
②计算统计量;
③确定显著性水平α,查表得相应显著性水平和自由度的;
④当,拒绝原假设H0:σ2≥,接受备择假设H1:σ2<,表示样本测量方差小于原总体方差σ2,反之接受原假设H0。
2.3.4.4 检验两个总体方差是否一致
这是一个双侧检验问题,设H0:=,备择假设H1:≠。
由2.3.3知,若xi和yj来自正态总体N(μ,σ2)的两个样本, xi和yj彼此独立,则统计量服从自由度(ν1,ν2)的F分布。
按F分布,如果原假设成立,则应近似等于1,而当F值太大或太小时,则原假设可能不成立。但是样本的标准差s1和s2是从有限的测量数据求得的,即使和是同一总体方差σ2的无偏估计值,由于测量误差的存在, 和也未必相同,即F≠1。因此,F≠1并不意味着原假设H0一定不正确,即F值在偏离1的一定范围内变动,仍然可认为原假设H0是正确的。由此,F值偏离1的程度应有一个合理的允许范围,这个范围可由F值的分布来求得。
各F值出现的概率决定于F值和样本自由度ν1和ν2,如果给出显著性水平α,对双侧检验,在F分布表上就可以确定拒绝原假设的临界值和,即当F>或F<时,拒绝原假设,接受备择假设H1:≠,表示和之间存在显著性差异。而当≤F≤时,接受原假设,且有P(≤F≤)=1-α。
【例2-12】 某实验室用ICP-AES法和AAS法测定钢铁中的锰含量,ICP-AES法在重复性条件下测量8次,测量平均值和标准差分别是0.524%和0.0065%;AAS法测量10次,平均值和标准差分别是0.528%和0.0041%,问ICP-AES法与AAS法测量的精密度及测量结果是否有显著差异。
解 根据题意,ICP-AES法s1=0.0065%,ν1=10-1=9;AAS法s2=0.0041%,ν2=8-1=7。
先进行测量数据的精度检验:原假设H0:σ1=σ2,备择假设H1:σ1≠σ2。
计算统计量:
本例检查是否有显著性差异,是双侧检验,取α=0.05,查F分布表,F0.025(7,9)=4.20,,,接受原假设,即从统计学角度,认为两个方法的精密度无显著性差别。
进行平均值的一致性检验,x1=0.524%,n1=8,x2=0.528%,n2=10,计算统计量:
取α=0.05,自由度ν=n1+n2-2=16,tα,16=2.12,t<tα,16,表明两方法的测量结果没有显著性差异。
本例中虽然ICP-AES法的精密度稍低于AAS法,有些人认为应选择AAS法,但两者在统计上无显著性差异,采用ICP-AES法也是可以的,而且测量结果亦是一致的。
2.3.4.5 检验样本方差是否不大于另一个样本方差
这是一个单侧检验问题,原假设H0:≤,备择假设H1:>。
计算两个样本的方差和统计量:
(2-35)
取显著性水平α=0.05,按自由度ν1=n1-1,ν2=n2-1,从F分布表查出临界值,若F>,则拒绝原假设H0,接受备择假设H1,表示方差显著大于方差。
【例2-13】 某实验室在研制高碳钢标准物质中采用红外吸收法检验其碳含量分布的均匀性。在分装的高碳钢铁标准物质中随机取20瓶(单元),用红外吸收法测量其碳含量;另任取一瓶,重复测量16次,做对照试验。单元间和单元内的测量按随机顺序进行,测量数据分别为:
单元间,0.856%、0.864%、0.852%、0.855%、0.865%、0.850%、0.866%、0.854%、0.858%、0.860%、0.850%、0.863%、0.859%、0.856%、0.855%、0.862%、0.852%、0.848%、0.856%、0.858%;
单元内,0.848%、0.856%、0.858%、0.852%、0.858%、0.860%、0.856%、0.852%、0.854%、0.850%、0.860%、0.850%、0.854%、0.855%、0.858%、0.861%。
问研制的高碳钢标准物质碳量的分布是否均匀。
解 由于单元间和单元内的测量按随机顺序进行,测量过程中的时间变差已随机化,以单元内的变差作为测量误差,与单元间的变差进行比较。本例是单侧检验,如果单元间变差不大于单元内的变差,可认为单元间碳量分布是均匀的。
原假设H0:σ1≤σ2,备择假设H1:σ1>σ2。
计算单元间测量的平均值=0.8570%,s1=0.00523%;单元内测量的平均值=0.8551%,s2=0.00395%,将被比较的方差置于分子,计算统计量
取α=0.05,F0.05(19,15)=2.34,F<F0.05(19,15),接受原假设,此标准物质单元间碳量分布的方差并不显著大于单元内方差,可以认为碳量分布的均匀性良好。
注:关于标准物质的均匀性检验见9.5.1。
F检验只检查测量结果精度的一致性,不考虑两样本测量值是否存在系统误差。当检验两样本测量结果的一致性时,须先进行方差一致性检验,并在方差一致的前提下进行测量结果的一致性检验。
2.3.5 多个总体的方差的检验
2.3.5.1 柯克伦(Cochrane)检验
设有m个总体,分别遵循正态分布、、…、,在m个总体中各独立抽取相同的n个样本,各样本的方差分别为、、…、,检验其中最大方差与其他方差是否有显著性差异,计算统计量:
(2-36)
是被检验的m个方差中最大的方差,自由度ν=n-1,当统计量C大于柯克伦检验临界值Cα,(m,ν)时,则表示在显著性水平α上,其最大方差与其他方差有显著性差异。
在测试方法精密度试验和标准物质研制的数据处理时经常采用柯克伦法检验实验室间方差的一致性。当C≤C0.05,(m,ν)时,认为各实验室测量数据的精度无显著性差异;当C>C0.01,(m,ν)时,其最大方差的数据组作为高度异常值弃去;而当C0.05,(m,ν)<C<C0.01,(m,ν)时,一般需进行技术判断,慎重研究后决定取舍。
当弃去离群值后,对剩下的数据再次进行柯克伦检验,此过程可重复进行。柯克伦检验仅是对最大方差的检验。当然,方差的不一致也包括标准差特别小的数据组,但实践中没有理由拒绝一个比其他实验室测量精度都要高的实验室数据。小的标准差可能是在测试中采用了较好的测试技术或设备,但也往往是对原始数据过度修约引起的,在分析测试中保留足够数位的有效数字是必要的。
柯克伦检验要求每组的测量数据数(n)相同,但当样本由于缺漏、剔除而各数据组的测量数据数不尽相同时,n可取绝大多数方差的测量次数。或当样本容量相差不大时,用各方差测量次数ni的调和平均值n'作为近似的n值:
(2-37)
也有用各样本容量最大者n1和最小者n2计算调和平均值n'作为近似的n值:
(2-38)
柯克伦检验临界值Cα,(m,ν)见表2-11。
表2-11 柯克伦检验临界值Cα,(m,ν)
【例2-14】 有10个实验室参与某低合金钢标准物质中镍含量的定值分析,测量的原始数据列于表2-12,问是否有测量精度异常的实验室。
表2-12 测量参数表
解 采用柯克伦检验,计算各实验室的标准差及平均值和极差,填入表2-12中,其中5号实验室的标准差和极差最大,计算柯克伦检验统计量:
本试验m=10,ν=4-1=3,查临界值表,C0.05,(10,3)=0.373,C0.01,(10,3)=0.447,C0.05,(10,3)<C<C0.01,(10,3)。检验结果表明,在0.05显著性水平认为5号实验室测量数据精度与其他实验室数据精度相比有显著性差异,但在0.01显著性水平上并不认为其精度异常。5号实验室的测量数据是否有效,需进一步作技术分析。
据查,5号实验室采用的分析方法是ICP-AES法,查分析方法标准(GB/T 20125—2006),镍含量的重复性限函数关系式为r=0.0006+0.0243m。按镍含量1.33%,得r=0.033%(α=0.05),1.3r=0.043%,5号实验室测量结果的极差并未超过四个分析结果的极差限。另外,5号实验室的测量平均值在各实验室平均值分布的中间,也不是异常值,因此5号实验室的测量数据可予以保留。
2.3.5.2 巴特莱(Bartlett)检验法
巴特莱检验法适用于各样本测量次数不同的情况。设有m个总体,分别遵循正态分布,各样本的测量次数分别为n1、n2、…、nm,方差分别为、、…、,原假设,检验统计量为:
(2-39)
当各测量次数相同,则
(2-40)
当νi>2时,B近似遵循自由度为m-1的χ2分布。若统计量,根据小概率事件原理,拒绝原假设H0,即各总体的方差存在显著性差异。通常,方差存在显著性差异,表示存在一个大的方差并与其他方差有显著性差异。
【例2-15】 有6个实验室用原子吸收光谱法测定铁矿石中钙含量,分别进行4次、5次、7次、6次、4次和7次测量,测量结果的标准差分别为0.005%、0.008%、0.016%、0.004%、0.009%和0.003%,试问这6个实验室的测量精度是否有显著性差异。
解 设原假设,计算得,
又,
计算统计量B:
取α=0.01,查χ2分布表,,,说明各实验室间的精密度存在显著差异。3号实验室的精密度显著差于其他实验室。
用柯克伦法进行检验,3号实验室的标准差最大,于是
由于各实验室测量次数不同,用近似式估计n值,
n'≈5,ν≈4,查柯克伦检验临界值表,C0.05,(6,4)=0.480,C0.01,(6,4)=0.564,C>C0.01,(6.4),结果表明,在0.01显著性水平认为3号实验室测量数据精密度与其他实验室数据精密度相比有显著性差异,其检验结论与巴特莱检验法是一致的。显然,采用柯克伦检验的计算较巴特莱检验法要简单得多。
另外还有哈特利(Hartley)检验法和极差比检验法,哈特利检验的统计量是m组数据中最大方差与最小方差之比,极差比检验的统计量是m组数据中最大极差与最小极差之比,并与相应的临界值比较。该两检验法利用的信息量少,检验功效不及柯克伦检验和巴特莱检验法。