2.2 平均值一致性检验
2.2.1 概述
平均值一致性的检验是检查分析结果的准确度,考察系统误差对分析结果的影响。
分析测试中,测量值x是一个以概率取值的随机变量,若x遵循正态分布N(μ,σ2),则n次测量的平均值遵循正态分布N(μ,σ2/n)。平均值是正态总体均值μ的无偏估计,若不同样本来自同一总体,则不同样本的平均值均为该总体均值μ的无偏估计值,都在总体均值μ附近波动。从统计上讲,各样本平均值的变动性都在其随机误差所允许的范围内。反之,当各样本平均值的变动性超过随机误差所允许的范围,即平均值间出现了显著性差异,说明它们之间除了随机误差外,还存在有明显的系统误差。因此,当样本测量值计算的统计量落在统计上所允许的合理范围内,就接受各平均值一致的假设;而当计算的统计量落在所允许的合理范围外的拒绝域,则评定各平均值间存在显著性差异。这就是平均值一致性检验的基本思想。
平均值一致性检验的基本步骤:
①根据所讨论的问题做出检验的原假设H0和备择假设H1,即确定检验的目标。
②根据所讨论问题,计算或确定相应测量参数,如测量平均值、标准差、测量次数、自由度等。
③根据测量参数,计算相应的统计量。
④选择显著性水平α,确定统计检验的临界值(单侧或双侧),即确定统计量分布拒绝域的界限。
⑤比较统计量和临界值,若统计量大于相应临界值,统计量落入拒绝域,则在显著性水平α下拒绝原假设H0,接受备择假设H1;若统计量小于相应的临界值,则在显著性水平α下接受原假设H0。
需要注意的是,平均值一致性检验的前提是被检验测量值间的方差是一致的。平均值一致性检验以随机误差作为比较标准,若被检验测量值间的方差有显著性差异,随机误差过大,可能出现随机误差掩盖系统误差的情况,使检验的灵敏度降低,即降低一致性检验的功效。因此,有必要在平均值一致性检验前,先进行方差的齐性检验,在方差一致的基础上再进行平均值一致性检验。
分析测试中随机误差的分布遵循正态分布或近似正态分布,可用正态分布的概率密度函数来描述大样本测定的误差分布。算术平均值遵循正态分布N(μ,σ2/n),或遵循标准正态分布N(0,1),由此可估计期望值μ落在某一区间的概率,或反过来可以在一定的概率下估计μ的区间大小。但是,通常分析测试都是小样本试验,小样本试验不能求得总体均值μ和总体标准差σ,而只能求得样本的均值和样本标准差s,如果直接用小样本测量得到的标准差s代替σ进行μ的区间估计,偏差较大。因此,不适合用正态分布来处理小样本的试验数据,需要采用类似于正态分布的t分布来处理,可得到较为可靠的μ区间估计。
平均值一致性检验中,有两种情况,一是正态总体的方差(σ2)已知,检验其平均值的一致性,称为u检验;二是在方差(σ2)未知且为小样本测定时,平均值遵循t分布,称为t检验。
分析测试中多为小样本测定,应用较多的是t检验。因此,在进行t检验前,有必要了解在正态分布情况下的t分布。
2.2.2 t分布
t分布是正态分布派生出来一个分布。
设x1、x2、…、xn是正态分布N(0,1)总体中的随机样本值,则统计量:
(2-8)
遵循自由度ν=n-1的t分布,式中,是样本的算术平均值;s是样本的标准差。
t分布的概率密度函数为:
(2-9)
或
(2-10)
式中,Γ(ν)是伽马函数。t分布密度函数只取决于自由度ν和统计量t值,统计量t服从自由度ν 的t分布。图2-3给出了不同自由度的t分布概率密度曲线。
图2-3 不同自由度的t分布概率密度曲线
注: 伽马函数,是常用函数值;当n为自然数时,Γ(n)=(n-1)!,如Γ(2)=1,Γ(3)=2,Γ(4)=6,Γ(5)=24,Γ(6)=120,…;Γ函数具有递推性质:,如Γ,由此,,,,。
若与分别来自正态分布N(μ1,σ2/n1)与N(μ2,σ2/n2),则遵循正态分布,遵循标准正态分布N(0,1),则统计量:
(2-11)
遵循自由度ν=n1+n2-2的t分布,式中,n1、n2分别为、的测量次数;为合并样本标准差
(2-12)
从以上论述可知,t分布有以下几个特点:
①对称性,t分布概率密度曲线以t=0为中心,左右两侧对称,t=0时,曲线峰值最高,分布密度最大。
②t分布概率密度曲线与自由度ν有关,ν愈小,t值愈分散,曲线两侧尾部更为伸展。t分布表示的是一簇不同ν值的曲线,在处有拐点。
③t分布密度曲线都保持了正态分布曲线的形状,当自由度ν逐渐增大,t分布曲线逐渐逼近于标准正态分布。当ν大于20时,t分布曲线与正态分布曲线十分近似,当ν→∞,t分布趋近于正态分布N(0,1)。而ν愈小,t分布与正态分布相差愈大。
④t分布曲线下的总面积为1。自由度为ν的t分布,其离散度愈大,曲线两端与t坐标轴接近愈慢,因而达到一定显著性水平所需的t值愈大。因此,设定了显著性水平,可确定相应自由度ν的t分布概率分布值。
由于概率密度曲线的对称性,,
表2-8分别给出了单侧和双侧的t分布值。对同一显著性水平,双侧的tα值等于单侧的tα/2值。在用其概率分布进行平均值的一致性检验时,首先要确定的是采用单侧检验还是双侧检验,并使用相应的t分布值。
随机变量t出现在某一区间(tα/2,t1-α/2)的概率
P(tα/2<t<t1-α/2)=1-α
图2-4给出了概率分布示意,概率P可由t分布表查出。例如,P=0.05,ν=10,由t分布表(表2-8)查得t=2.228,即>2.228的概率为5%,<2.228的概率为95%,即
图2-4 t分布概率示意图
由表2-8可以看出,当自由度ν较小时,t分布与正态分布相差较大。例如,当α=0.05时:ν=5,t=2.571;ν=20,t=2.086;ν=50,t=2.009;ν=200,t=1.972,与正态分布u0.05=1.960渐近。当ν→∞,t=1.96,这时t分布与正态分布是一致的。
表2-8 t分布表
2.2.3 u检验
在一些情况下,总体方差可以认为是已知的。例如,在生产稳定的情况下,产品质量在一定范围内波动。日常分析测试中,测量值的变动性稳定在一个水平。在这种正常的生产或测试中,都可以用历史的数据求得产品质量变动性的标准差σ,或测量值变动性的标准差σ。这样,可以用标准差σ来检查产品质量的波动,或检验测量值的变动性。在这种情况下,对总体均值的各种假设都可以用服从正态分布的N(μ,σ2)来检验,称为u检验。
2.2.3.1 已知一正态总体的和均值μ0,检验待检样本的均值是否与原均值μ0一致
计算待检样本的均值,计算统计量u:
(2-13)
取显著性水平α,采用双侧检验,查正态分布表uα/2,当u<uα/2,表示检验待检样本的均值与μ0无显著性差异。需注意的是,由于可能比μ0偏高或偏低,采用双侧检验,一侧的显著性水平为α/2。
同样,如果已知一正态总体的方差和均值μ0,检验待检样本的均值是否显著大于(或显著小于)原均值μ0,亦可按式(2-13)计算统计量u,并与uα比较,注意此时是单侧检验。
2.2.3.2 已知两个正态总体方差相等并已知,检验两个正态总体的均值是否一致
计算待检样本的均值和原样本均值,计算统计量u:
(2-14)
取α=0.05,查正态分布表,当ν→∞时,uα/2=1.96,若u<uα/2,表示检验待检样本的均值与原样本均值无显著性差异。
同样,用计算统计量u,可检验一个正态总体的均值是否大于(或小于)另一个正态总体的均值,此时是单侧检验。
在分析实践中往往是小样本测试,而采用标准物质的认定值亦是通过有限次测量确定的,其量值本身存在不确定度。因此,在分析测试中更多的是应用t检验进行测量值之间的比较和判断。
2.2.4 t检验
分析测试中大致有三种t检验情况,一是测量平均值与给定值比较;二是两个测量平均值的比较;三是比对试验中两组测量值的比较。
2.2.4.1 平均值与给定值的比较
样本测量次数n,计算其均值、标准差s和统计量t:
(2-15)
取显著性水平α,自由度ν=n-1,本情况为双侧检验,在t分布表查双侧检验临界值,若,则认为与μ0有显著性差异。
在上述情况下,如果检验一个正态总体的均值是否不大于(或不小于)原正态总体的均值,取显著性水平α,此时是单侧检验,在t分布表查单侧检验临界值tα,ν,若t≤tα,ν,则不大于(或不小于)μ0;若,则大于(或小于)μ0。
【例2-5】 用原子吸收光谱法测定某铁矿石标准物质中的锰含量,5次测量值分别为0.258%、0.263%、0.272%、0.266%和0.264%,锰含量的认定值是0.260%,问测量值是否显著大于认定值。
解 计算测量值的平均值,标准差s=0.00508%,n=5,计算统计量
本例是单侧检验,取α=0.05,t0.05,4=2.13,t≤t0.05,4,原子吸收光谱法测量值不大于认定值,分析结果与认定值无显著系统误差。
分析测试中往往对标准物质进行多次测量,以检查测量结果的准确度,并评价方法的可靠性。但是,标准物质的认定值μ0本身是一个真值的最佳估计值,其置信区间为,s0为定值的标准差,N为定值的数据组数,为认定值的标准不确定度,通常s0和N在标准物质证书中都可以查到。严格而言,进行t检验时,还要考虑标准物质认定值的标准不确定度,则其统计量:
(2-16)
式中,s为n次测量结果的标准差。注意,此时的自由度要同时考虑标准物质的定值数据数,ν=n+N-2,统计量t与临界值tα,(n+N-2)比较。
上例中,已知锰含量的定值标准差为0.004%,定值数据组数为8,则:
自由度ν=8+5-2=11,单侧检验,t0.05,11=1.80,统计量小于临界值,标准物质的测量结果不大于认定值,两者无显著系统误差。
2.2.4.2 平均值的置信区间
根据统计量t的计算式,可改写为:
(2-17)
表示,真值μ0落在间的概率为1-α,即
随机区间称为μ0的置信区间,称为置信限,称为误差限,又称估计精度,(1-α)×100%称为置信度。
置信区间随不同置信度而不同。对同一测量结果,置信度愈大,置信区间愈宽。对同一置信度的两个测量结果,置信区间愈小,表示测量结果精密度愈高(结果亦可能较正确)。对不同置信度的两个测量结果,应先将其换算成相同置信度下的误差限,再比较误差限的大小,并对两个结果进行判断。
【例2-6】 有十个实验室参与某不锈钢标准物质中铬的定值分析,各实验室测定铬量的平均值分别为:11.324%、11.342%、11.360%、11.378%、11.392%、11.403%、11.408%、11.415%、11.436%、11.465%,计算铬量认定值的置信区间。
解 计算实验室间测量值的平均值=11.3923%,标准差s=0.0428%,n=10,ν=9,。
取显著性水平0.05,即置信度95%,t0.05,9=2.26(双侧),则标准物质中铬含量的置信区间为:
可以认为该不锈钢标准物质中铬的认定值为11.39%,认定值的置信区间为11.36%~11.42%,有95%的把握认为铬的真值落在11.36%~11.42%间。
注:在计算置信区间前,应先对各测量值进行统计检验,在无异常值或剔除异常值后再计算置信区间。
2.2.4.3 两个正态总体均值的一致性检验
两样本的测量次数分别为n1和n2,计算两待检样本的均值、和标准差s1、s2,计算统计量:
(2-18)
当n1=n2=n,简化为:
(2-19)
取显著性水平α,自由度ν=n1+n2-2,本情况为双侧检验,在t分布表查双侧检验临界值tα,ν,比较t和tα,ν,若t>tα,ν,则有显著性差异。
在上述情况下,如果检验一个正态总体的均值()是否不大于(或不小于)另一个正态总体的均值(),此时是单侧检验,在t分布表查单侧检验临界值tα,ν,比较t和tα,ν,若t≤tα,ν,则不大于(或不小于);若t>tα,ν,则大于(或小于)。
在小样本均值进行比较时,要求两个样本的总体方差相同。因此,在进行t检验前,应首先检验两样本的方差是否有显著性差异,即进行方差齐性检验(见2.3.4)。
【例2-7】 某制药厂生产一种降压新药,为试验降压的疗效,在血压偏高的人群中随机抽取20人进行疗效试验。在用药前十天,连续测量其血压,用药一星期后,再连续测量十天,20人的血压平均值分别为(单位为mmHg):
用药前:165、150、162、158、148、160、145、148、155、160、155、145、162、140、152、162、145、148、162、155。
用药后:155、148、160、150、145、152、142、140、145、150、150、145、155、138、150、145、140、145、150、148。
问该新药对降血压是否有显著疗效?
解 按题意计算用药前和用药后血压的平均值和标准差,得
用药前:
用药后:
经方差检验,两标准差无显著性差异,计算统计量:
取显著性水平α=0.05,本例是单侧检验,t0.05,38=1.68,t>t0.05,38,表明新药对降血压有显著的疗效。
注:本例也可采用2.2.4.4比对试验方法进行检验(每一人用药前后的血压值为一对),结果亦表明新药对降血压有显著的疗效。
【例2-8】 今采用新工艺生产一批纯铁,用于红外法测定碳、硫的助熔剂,并与原产品进行比较。在相同条件下测定新、老两产品中碳、硫含量,测量结果如下:
碳分析结果,新产品:8μg/g、12μg/g、10μg/g、10μg/g、11μg/g、8μg/g、9μg/g、10μg/g
原产品:13μg/g、16μg/g、14μg/g、13μg/g、12μg/g、9μg/g、10μg/g、13 μg/g
硫分析结果,新产品:8μg/g、11μg/g、8μg/g、9μg/g、6μg/g、8μg/g、10μg/g、7 μg/g
原产品:10μg/g、11μg/g、9μg/g、7μg/g、13μg/g、8μg/g、12μg/g、8 μg/g
问新工艺生产纯铁的碳、硫含量是否显著低于原产品。
解 计算新产品和原产品的各测量值参数。
碳,新产品:
原产品:
硫,新产品:
原产品:
碳、硫测定中,
取α=0.05,按题意是单侧检验,t0.05,14=1.76,tC>t0.05,14,而tS<t0.05,14。由此,按新工艺生产的纯铁中碳含量显著低于原产品,而硫含量虽比原产品低,但在统计上无显著性差异。
2.2.4.4 比对试验的t检验
分析测试中,通常以t检验对由同一方法得到的两组测量数据进行比较(或与认定值比较),或用不同方法对同一样品测试结果进行比较。有时试验样品量不多(不能进多次重复测量),上述t检验方法难以进行,这时可采用比对试验进行t检验。
例如,采用两种不同的分析方法对若干同品种的不同样品进行比对试验,比较两种分析方法的测量结果是否有显著性差异。设采用甲、乙两种方法对若干样品进行比对试验,测量结果如表2-9所示。
表2-9 比对试验测量结果
试验中影响测量结果的变动性的有两个因素,一是分析方法,二是样品,两因素交织在一起,不能采用上述t检验方法统计。在比对试验中,每一对样品是相同的,即排除了样品变动性的因素,测量结果的变动性只反映两分析方法间的差异。显然,如果两分析方法间无系统误差,当测定无限多次时,两分析方法间差值的平均值应为0,而在有限次测定中,两分析方法间差值的平均值虽不一定为0,但与0之间应无显著性差异。因此,比对试验就是检验与0之间是否有显著性差异。
①计算各对测量值的差值di,和差值di的平均值
②计算差值di的标准差sd和平均值的标准差:
(2-20)
(2-21)
③计算统计量t:
(2-22)
式中,d0是零或给定值。
④取显著性水平α,自由度ν=n-1,比较t和tα,ν,如t>tα,ν,认为甲、乙两种方法的测量结果存在显著性差异。
【例2-9】 某实验室试验用三氯化钛还原的无汞盐滴定法欲代替经典的二氯化锡还原汞盐滴定法测定铁矿石中全铁,为此选取11个铁矿石样品,用两方法进行比对分析,测试结果如表2-10所示,试评价两种分析方法测量结果是否有显著性差异。
表2-10 两方法测定铁矿石分析结果的比对
解 从表列数据,按比对试验进行t检验,计算差值d的平均值,计算差值di的标准差sd=0.0883%,差值平均值的标准差
计算统计量
取α=0.05,按题意,本例是双侧检验,t0.05,10=2.23,t<t0.05,10,检验结果表明,两种分析方法的测量结果无显著性差异。在分析中可以用无汞盐的三氯化钛还原滴定法测定铁矿石的全铁。从表列数据看,虽然无汞盐法测量结果比汞盐法平均偏高0.0336%,但由于分析方法本身的随机误差,从统计上并没有表示两者有显著性差别。
如果不采用比对试验的t检验方法,而用无汞盐法的11个数据和汞盐法的11个数据,分两组进行统计比较,在数学上也可以计算其统计量。但是,由于样本不同,每组统计的标准差包括了样本的变动性,而且样本本身的变动性远大于方法的变动性,大大降低了检验的灵敏度。在这种情况下,采用比对t检验方法,以排除样本变动性的影响。如果采用一个相同的样本,对两组的测量数据可以用上述2.2.4.3的方法进行检验。
因此,当所研究的因素的效应比其他因素的效应大得多时,或者其他效应可严格控制时,可采用分组试验进行检验;而当其他因素的效应大于所研究的效应时,采用分组试验是不合适的,应采用比对试验的检验方法。