试验设计与统计分析
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

模块五 数据资料的统计假设检验

学习目标

1.理解统计假设的涵义、基本原理和步骤。

2.了解假设检验的两类错误及一尾检验和两尾检验。

3.掌握样本平均数的假设检验。

4.掌握总体参数的区间估计。

任务描述

1.通过学习假设检验的基本概念、原理和步骤,培养学生科学地分析试验数据,做出正确的统计推断。

2.通过学习单个样本平均数的假设检验,能够判断某一样本平均数x-与已知总体平均数μ0是否有显著性差异。

3.通过学习两个样本平均数的假设检验,能够通过两个样本平均数之差(x-1-x-2)去推断两个样本所在总体平均数μ1μ2是否有显著性差异。

4.通过学习参数的区间估计,能够合理地估计出参数可能出现的一个范围,使绝大多数该参数的点估计值都包含在这个区间内。

样本平均数的抽样分布是从由总体到样本的方向来研究样本与总体的关系。然而在实践中,所获得的资料通常都是样本结果,我们希望了解的却是样本所在的总体情况。因此,还须从由样本到总体的方向来研究样本与总体的关系,即进行统计推断(statistical inference)。所谓统计推断,就是根据抽样分布规律和概率理论,由样本结果去推论总体特征。它主要包括假设检验(hypothesis test)和参数估计(parameter estimation)两个内容。

假设检验又叫显著性检验(test of significance),是统计学中一个很重要的内容。显著性检验的方法很多,常用的有t检验、F检验和χ2检验等。尽管这些检验方法的用途及使用条件不同,但其检验的基本原理是相同的。本章以单样本平均数(总体标准差已知)的假设检验为例来阐明假设检验的原理和步骤,然后介绍单样本平均数(总体标准差未知)的假设检验和两个样本的假设检验,最后介绍区间估计(interval estimation)的基本知识。

项目一 统计假设检验概述

一、统计假设的涵义

在统计学上,假设(hypothesis)指关于总体的某些未知或不完全知道性质的待证明的声明(assertion)。假设可分为两类,即研究假设(research hypothesis)和统计假设(statistical hypothesis)。研究假设是研究人员根据以前的研究结果、科学文献或者经验而提出的假设。统计假设往往是根据研究假设提出的,描述了根据研究假设进行试验结果的两种统计选择。

统计假设有两种,分别为原假设(null hypothesis,H0;或称零假设、虚假设、无效假设)和备择假设(alternative hypothesis,HA;或称对立假设)。原假设通常为不变情况的假设。比如,H0声明两个群体某些性状间没有差异,即两个群体的平均数和方差相同。备择假设,HA,则通常声明一种改变的状态,如两个群体间存在差异。研究假设可以为两种可能之一,即没有差异和有差异。通常情况下,备择假设和研究假设相同,因此,原假设与研究者的期望相反。一般地,证明一个假设是错误的较正确的容易,因此,研究者通常试图拒绝原假设。

假设检验的定义为:假定原假设正确,检验某个样本是否来自某个总体,它可以使研究者把根据样本得出的结果推广到总体。根据样本进行的假设检验有两种结果:①拒绝H0,因为发现其是错误的;②不能拒绝H0,因为没有足够的证据拒绝它。原假设和备择假设总是互斥的,而且包括了所有的可能,因此,拒绝H0则HA正确。另一方面,证明原假设H0是正确的比较困难。

根据概率理论和理论分布的特性进行假设检验,概率理论用来拒绝或接受某个假设。因为结果是从样本而不是整个总体得出的,因此,结果不是100%正确。

二、假设检验的基本原理

实际中,多数情况是用样本数据去推断总体,由于个体变异和随机抽样误差,不能简单地根据样本统计量数值的大小直接获得结论。例如,比较甲、乙两种食品包装的受欢迎程度,甲种包装的食品购买量为200袋,乙种包装的食品购买量为300袋,并不能说明乙包装更受欢迎,因为如果再重新做一次试验其结果可能相反。所以需要利用假设检验的方法达到由样本推断总体的目的。

假设检验的理论依据是“小概率事件原理”,在上例对H0作出的判断中,实际上运用了小概率原理。所谓小概率原理,就是认为小概率事件在一次试验(观察)中实际上不会发生。在统计推断中,把概率很小的事件叫做小概率事件。“小概率事件原理”就是概率很小的事件在一次试验中认为是不可能发生的。如果预先的假设使得小概率事件发生了,类似于数学中传统推理的反证法出现逻辑矛盾那样,就认为出现了不合理现象,从而拒绝假设。一般把概率不超过0.10、0.05、0.01的事件当作“小概率事件”,用α表示,称为检验水准或显著水平(signifi-cance level),α通常取0.05、0.01,实际问题中也可取0.10、0.001等。

三、假设检验的步骤

第一步,建立假设。对样本所属总体提出假设,包括无效假设H0和备择假设HA。H0与HA在假设检验问题中是两个对立的假设:H0成立则HA不成立,反之亦然。例如,对总体均值μ可以提出三个假设检验如下所述。

(1)H0μ=μ0,对HAμ≠μ0

(2)H0μ=μ0,对HAμμ0

(3)H0μ=μ0,对HAμμ0

(1)称为双尾或双侧检验,(2)和(3)称为单尾或单侧检验。

第二步,规定显著水平α。由于总是在有相当的根据后才作出原假设H0的,为此选取一个很小的正数α,如0.01或0.05。检验时,就是要解决当原假设H0成立时,做出不接受原假设H0的这一决定的概率不大于这个显著水平α

第三步,检验计算。从无效假设H0出发,根据所得检验统计量的抽样分布(不同的假设检验,所得统计量不同),计算表面效应仅由误差造成的概率。

第四步,统计推断。根据计算的概率值大小来推断无效假设是否错误,从而决定肯定还是否定H0

由于常用显著水平α有0.05和0.01,故做统计推断时就有3种可能结果,每次检验必须且只能得其中之一,具体如下所述。

①当计算出的概率P>0.05时,说明表面效应仅由误差造成的概率不是很小,故应接受无效假设H0,拒绝HA。此时称为差异不显著。

②当计算出的概率0.01<P≤0.05时,说明表面效应仅由误差造成的概率很小,故应否定无效假设H0,接受HA。此时的显著水平称为差异显著。差异显著通常是在计算的统计量值上用记“*”来表示。

③当计算出的概率P≤0.01时,说明表面效应仅由误差造成的概率更小,更应否定无效假设H0,接受HA。此时的显著水平称为差异极显著。差异极显著通常是在计算的统计量值上用记“**”来表示。

下面通过举例说明假设检验的基本原理和步骤。

【例5-1】某工厂生产的咀嚼片额定标准为8.9g/片,从机器所生产的产品中随机抽取9片,=9.0111,S=0.1182。该厂生产的咀嚼片是否符合标准?

第一步:建立统计假设。

样本的均数=9.0111与额定标准8.9g/片之间的差异由两种原因造成:一是机器工作不正常造成的,也称为本质原因,样本均数与总体均数有实质性差异;另一种是机器正常工作,样本均数与总体均数没有实质性差异,差异是由随机误差所造成的。统计上就是要根据样本的信息去推断究竟是哪种原因造成的。

先假设该厂生产的咀嚼片的质量(μ)符合标准μ0,即H0:μ=μ0,则HAμμ0

第二步:规定显著水平。

由附录3可知

公式说明|t|1.86是一个小概率事件,即|t|超过1.86的可能性是很小的。

第三步:检验计算。

根据抽样分布的理论,在此假设条件下,可以构造出一个统计量,公式如下

根据公式可知服从自由度为df=n-1=9-1=8的t分布。

第四步:统计推断。

|t|=2.82011.86,因此,P<0.05,显然是发生小概率事件,与“小概率事件原理”相违背。上面的推理是没有错误的,问题只能出在假设上,从而拒绝假设,可以认为该工厂生产的咀嚼片的质量不符合标准。

四、假设检验的两类错误

统计假设检验是根据小概率事件的实际不可能性原理来决定否定或接受无效假设的。因此在作出是否否定无效假设的统计推断时,没有100%的把握,总是要冒一定的下错误结论的风险。如表5-1所示为在一次统计假设检验中可能出现的4种情况。

在列出4种情况中,有两种情况的检验结果是错误的。其中,当H0本身正确,但通过假设检验后却否定了它,也就是将非真实差异错判为真实差异,这样的错误统计上称为第一类错误,亦称Ⅰ型错误(typeⅠerror)。反之,当H0本身错误时,通过假设检验后却接受了它,也即把真实差异错判为非真实差异,这样的错误叫做第二类错误,亦称Ⅱ型错误(typeⅡerror)。

表5-1 统计假设检验结果的4种情况

由表5-1所示的第三行可知,如果结论为否定H0,则可能得出正确结论,也可能犯概率为α的第一类错误。第四行可知,如果接受H0,则或者得出正确结论,或者犯概率为β的第二类错误。对于某一次检验,其结果是不是出错,一般无从知晓。但是可以肯定,否定无效假设H0时可能犯第一类错误,而接受无效假设时可能犯第二类错误,并且犯两类错误的概率有多大是可知的。

犯第一类错误的概率通常不会超过显著水平α。因为在无效假设H0正确的情况下,从μ0总体中随机抽出的样本平均数仍有α大小的概率出现在否定域。然而在假设检验中,一旦落入否定域,就否定H0。因此,犯第一类错误的概率通常不会超过H0正确时出现在否定域的概率α,即显著水平。由此可见,当在显著水平α下做出否定H0的推断时,有1的可靠性保证结论正确。同时要冒α这样大的下错误结论的风险。要使犯第一类错误的概率小一些,可将显著水平定得小一点。从以上例子可知,可以控制显著水平(第一类错误,α),那么为什么推荐的显著水平为0.05,而不是更低的第一类错误概率0.01或0.001呢?有时确实会选择较高的显著水平,但是这时,第二类错误β升高,检验功效下降。通过下面一个例子进行说明。

【例5-2】假设有一个总体服从正态分布,其平均数等于100,标准差等于10。另一个总体也服从正态分布,平均数等于105,标准差等于10。不知道样本是从哪一个总体抽取的,只知道为其中之一。而实际上,样本来自均值等于105的样本。

案例1:假定样本含量n=25,α=0.05。

假设为

H0μ=100,σ=10

HAμ=105,σ=10

首先计算当H0正确时,什么情况下会犯第一类错误。临界值μ0.05=1.645,注意这时为单尾检验,即

于是得=103.29。如果H0正确,当平均数大于103.29时,拒绝H0,第一类错误的概率为0.05。如果H0是错误的,平均数低于103.29会导致第二类错误,得出样本来自平均数为100总体的结论。如图5-1所示,平均数为100的分布的斜影部分为第一类错误,平均数为105的分布的阴影部分为第二类错误。现在可以根据定义,计算第二类错误

这时μ检验的检验功效等于1=1-0.1963=0.8037。

图5-1 第一类错误和第二类错误示意图

案例2:假定样本含量n=25,α=0.01。

同样的,先计算当H0正确,什么时候会犯第一类错误。与前面的相同,查附表3,统计数临界值μ0.01=2.330,即

于是得=104.66。因此,第二类错误为

这时μ检验的检验功效等于1=1-0.4325=0.5675。

表5-2所示为三种显著水平下第二类错误和检验功效;从中可以看出,随着显著性水平的提高,第二类错误增大,检验功效下降;这样的后果不是我们期望的。这种现象的根本原因,是因为两个样本分布存在重叠。比如,如果一个样本的均值等于100,而另一个为10000,由于两个样本分布没有重叠,第二类错误就消失了。

表5-2 显著水平和第二类错误、检验功效的关系

=0.001时,临界值μα=3.09。

案例3:假定样本含量n=100,α=0.05。

=101.645,于是,第二类错误为

检验功效等于0.9996。

样本含量提高后,样本平均数的标准误下降,使样本分布间的重叠减少,因此,可以通过样本含量来提高检验功效,降低第二类错误。

五、一尾检验与两尾检验

上述假设检验中,对应于无效假设H0μ=μ0的备择假设为HAμ≠μ0。它实际上包含了μ<μ0μ>μ0这两种情况,因而这种检验有两个否定域,分别位于分布曲线的两尾,故叫两尾检验(two-tailed test)。两尾检验的目的在于判断μμ0有无差异,而不考虑μμ0谁大谁小,把μ<μ0μ>μ0合为一种结果。这种检验中运用的显著水平α也被平分在两尾,各尾有α/2,称作两尾概率。

两尾检验在实践中被广泛应用。但是,在有些情况下两尾检验不一定符合实际情况。例如,某酿醋厂的企业标准规定曲种酿造醋的醋酸含量应保证在12%以上(μ0),若进行抽样检验,则抽出的样本平均数时,无论大多少,该批醋都应是合格产品。但时,却有可能是一批不合格产品。这类否定域位于分布曲线某一尾的统计假设检验称为一尾检验(one-tailed test)。应当注意的是,在实际检验中,为了构造检验统计量,一尾检验的无效假设仍采用H0μ=μ0

选用两尾检验还是一尾检验应根据专业的要求在试验设计时就确定。一般而论,若事先不知道μμ0谁大谁小,为了检验μμ0是否有差异,则用两尾检验;如果凭借一定的专业知识和经验,推测μ不会小于(或大于)μ0时,为了检验μ是否大于(或小于)μ0,应用一尾检验。

六、假设检验应注意的问题

1.注意统计显著和生物学重要性的区别

假设检验结果为差异显著,只是统计分析的结果,并不一定具有重要的生物学意义,也不表明差异非常大。假如两个奶牛群的305d产乳量平均数差异10kg,如果样本量足够大,进行假设检验结果可能会达到显著,但是,对于生产实际却没有任何价值。相反,如果两个蛋鸡群的平均蛋质量相差5g,假设检验结果可能不显著,但是,却可能有重要的经济价值。同样地,如果假设检验结果为差异不显著,不能理解为样本间没有差异,假设检验不显著可能是因为误差太大而掩盖了真正的差异,进一步精确的试验结果的假设检验可能会得出差异显著的结果。

2.注意假设检验结果的解读

根据表5-1,无论我们是拒绝H0还是拒绝HA,我们都有可能会犯错误。因此,我们的假设检验结果为P>0.05,不能说“证明(prove)”H0是正确的,因为证明的意思为100%正确,但我们可以说数据(data)“支持”(support)原假设;同理,如果P<0.05,我们可以说数据支持备择假设。

3.关于显著水平的选择

α值的下降,第二类错误上升,检验功效下降。一般地,取α=0.05比较合适。有时,犯I类错误有严重后果,而且由于某些研究的特点决定了容易犯I类错误,如遗传学中的QTL(数量性状座位)定位研究,需要利用较低的显著水平,这时可以根据研究中染色体的数量校正显著水平的大小;关于假设检验时α值的取值校正方法超出了本书的范围,读者可以参考有关的统计学专著。由于样本含量升高可以提高检验功效,因此,如果条件允许,试验设计时应该尽量使各组样本含量大一些。

4.单尾检测或双尾检测的选择

关于假设检验时是采用单尾检验还是双尾检验,要根据不同问题的要求和专业知识来决定,一般在试验设计时就已经确定。如果事先不知道假设检验的结果,分析的目的是处理间有无差异,则进行双尾检验;如果根据专业知识或前人的结果,A处理的平均数比B处理的平均数高(或相反),假设检验的目的是处理A的平均数是否高于处理B的平均数(或差),则进行单尾检验。由上可知,如果对同一资料同时进行双尾检验和单尾检验,假设检验的结果是不同的,即单尾检验在显著水平α时显著,相当于双尾检验的2α水平显著。双尾检验显著的,单尾检验结果一定显著;而单尾检验显著的,双尾检验结果不一定显著。

5.选择合适的检验统计数

假设检验时要根据样本分布理论选择合适的检验统计数,每种检验统计数都有其适用条件。从本章下面两节可以知道,单样本的假设检验有u检验和t检验之分,我们要注意应用的条件不同。

此外,“显著”针对的是样本而不是总体,我们只能说“样本A和样本B平均数间存在显著差异”,而不能说“总体A和总体B的平均数差异显著”。

项目二 样本平均数的假设检验

一、单样本平均数的假设检验

单个样本平均数的假设检验是检验某一样本平均数x-与已知总体平均数μ0是否有显著差异的方法,即是检验无效假设H0μ=μ0μ≤μ0μ≥μ0)对备择假设HAμ≠μ0μ>μ0μ<μ0)的问题。具体方法有μ检验和t检验两种。

1.单个样本平均数的μ检验

μ检验(μ-test)方法,就是在假设检验中利用标准正态分布来进行统计量的概率计算的检验方法。以下两种情况的资料可以用μ检验方法分析:①样本资料所属总体服从正态分布Nμσ2),总体方差σ2为已知;②样本平均数来自一个大样本(通常n>120)。下面以实例说明μ检验的具体方法步骤。

【例5-3】某罐头厂生产水果罐头,其自动装罐机在正常工作状态时每罐净重具正态分布N(500,64)(单位为g)。某日随机抽查了10听罐头,测定结果如下(单位:g):

505,512,497,493,508,515,502,495,490,510。

问灌装机该日工作是否正常?

由题意可知,样本所属总体服从正态分布,并且总体标准差σ=8,符合μ检验的应用条件。由于当日灌装机的每灌平均净重可能高于或低于正常工作状态下的标准净重,故需作两尾检验,其方法步骤如下所述。

(1)提出假设

H0μ=μ0=500g,即该日装罐机平均净重与标准净重一样。

HAμ≠μ0,即该日装罐机平均净重与标准净重不一样,装罐机工作不正常。

(2)确定显著水平α=0.05(两尾概率)。

(3)检验计算

样本平均数

均数标准误

统计量μ

(4)统计推断 由显著水平α=0.05查附表2得临界μ值:μ0.05=1.96。

由于实得=1.067<μ0.05=1.96,可知表面效应=502.7-500=2.7仅由误差造成的概率p>0.05,故不能否定H0,推断该日装罐平均净重与标准净重差异不显著,表明该日灌装机工作属正常状态。

2.单个样本平均数的t检验

t检验(t-test)是利用t分布来进行统计量的概率计算的假设检验方法。它要求资料必须服从正态分布,主要应用于总体方差σ2未知的小样本资料,当然大样本也可用。其他方法步骤由下面的例子进行说明。

【例5-4】用山楂加工果冻,传统工艺平均每100g山楂出果冻500g。现采用一种新工艺进行加工,测定了16次,得每100g山楂出果冻平均数为=520g,标准差S=12g。问新工艺每100g山楂出果冻量与传统工艺有无显著差异?

本例中总体方差σ2未知,又是小样本,资料也服从正态分布,故可作t检验。检验步骤如下所述。

(1)建立假设

H0μ=μ0=500g,即新、旧工艺每100g山楂出果冻没有差异。

HAμ≠μ0,即新、旧工艺每100g山楂出果冻量有差异。

(2)确定显著水平α=0.05(两尾概率)。

(3)检验计算

均数标准误

统计量t

自由度

df=n-1=16-1=15

(4)统计推断

由自由度df=15和显著水平α=0.01查附录3得临界tt0.01(15)=2.947。由于实得=6.667>t0.01(15)=2.947,故p<0.01,应否定H0,接受HA,推断新、旧工艺的每100g山楂出果冻量差异极显著(用**表示),亦即采用新工艺可提高每100g山楂出果冻量。

二、两个样本平均数的假设检验

两个样本平均数的假设检验,就是由两个样本平均数之差去推断两个样本所在总体平均数μ1μ2是否有差异,即检验无效假设H0μ12(或μ1≤μ2,或μ1≥μ2)和备择假设H0μ1≠μ2(或μ1>μ2,或μ1<μ2)这类问题。实际上这是检验两个处理的效应是否一样。

1.成组资料平均数的假设检验

成组资料是指在试验调查时分别从两个处理中各随机抽取一个样本而构成的资料。其特点是两组数据相互独立,各组数据的个数不一定相等。在各种试验资料中,两个处理的完全随机试验资料属于成组资料。成组资料平均数的假设检验也有u检验和t检验之分。

(1)u检验 如果两个样本资料都服从正态分布,且总体方差已知;或者总体方差未知,但两个样本都是大样本时,平均数差数的分布呈正态分布,因而可采用u检验法来检验两个样本平均数的差异显著性。由两均数差数抽样分布理论可知,两个样本平均数的差数标准误,如式5-3、式5-4所示。

并有

在H0μ12下,正态离差u值为

根据以上公式即可对两个样本平均数的差异进行假设检验。如果总体方差未知,但n130,n230时,可由样本方差估计总体方差

【例5-5】某食品厂在甲、乙两条生产线上各测了30个日产量如表5-3和表5-4所示,试检验两条生产线的平均日产量有无显著差异。

表5-3 甲生产线日产量记录 单位:kg

表5-4 乙生产线日产量记录 单位:kg

本例两个样本均为大样本,符合μ检验条件。

①建立假设:

H0μ12,即两条生产线的平均日产量无差异。

HAμ1≠μ2,即两条生产线的平均日产量有差异。

②确定显著水平:α=0.01。

③检验计算:

④统计推断:由α=0.01查附表2得μ0.01=2.58。由于实际=3.281>μ0.01=2.58,故p<0.01,应否定H0,接受HA。这说明两条生产线的日平均产量有极显著差异,甲生产线日均产量高于乙生产线日均产量。

(2)t检验 当两个样本资料服从正态分布,且σ21222时,不论是大样本还是小样本,都有下式服从具有自由度df=n1+n2-2的t分布(n1n2为两个样本含量):

在H0μ12下,上式为

当两样本含量相等(n1=n2=n)时,则

此时自由度为df=2(n-1)。

【例5-6】海关检查某罐头厂生产的出口红烧花蛤罐头时发现,虽然罐头外观无胖听现象,但产品存在质量问题。于是从该厂随机抽取6个样品,同时随机抽取6个正常罐头测定其SO2含量,测定结果如表5-5所示。试检验两种罐头的SO2含量是否有差异。

表5-5 正常罐头与异常罐头SO2含量 单位:μg/mL

①建立假设

H0μ12,即两种罐头的SO2含量无差异。

HAμ1≠μ2,即两种罐头的SO2含量有差异。

②确定显著水平:α=0.01(两尾概率)。

③检验计算

本例的两个样本容量相等(n1=n2=6),所以

④统计推断:由df=10和α=0.01查附表3得t0.01(10)=3.169。由于实际=22.743>t0.01(10)=3.169,故p<0.01,应否定H0,接受HA。即两种罐头54的SO2含量差异极显著,异常的罐头SO2含量高于正常的,该批罐头已被硫化腐败菌感染变质了。

(3)近似t检验-t′检验 在两个样本所属总体的方差未知,但根据专业知识或统计方法能确知时,作t检验的均数差数标准误就不能再用由两个样本方差的加权平均数作总体方差σ2的估计值,而应分别由去估计,于是均数差数标准误变为

此时的就不再准确地服从自由度为df=n1+n2-2的t分布,而只是近似地服从t分布,因而不能直接作t检验。针对这一问题,Cochran和Con提出了一个近似t检验法。该法在作统计推断时,所用临界t值不是直接由t值表(附表3)查得,而须作一定矫正。矫正临界t值公式为

式中:;df1=n1-1;df2=n2-1。

如果n1=n2=n,因,由上式容易导出t′α=tα(df(df=n-1)。此时可直接由与由α和df=n-1查附表3得到的临界t值与tα(df比较后作出推断。

【例5-7】在作各种大米的营养价值的研究中,测定了籼稻米的粗蛋白含量5次,得平均数=7.32mg/100g,方差=1.06(mg/100g)2;另测定了糯稻米的粗蛋白含量5次,得平均数=7.62mg/100g,方差=0.11(mg/100g)2。试检验两种大米的粗蛋白含量有无显著差异。

经方差同质性检验,可知本例的两个样本方差存在显著差异,因此只能做近似t检验。

①建立假设:

H0μ12,即两种大米的粗蛋白含量无差异。

HAμ1≠μ2,即两种大米的粗蛋白含量有差异。

②确定显著水平:α=0.05。

③检验计算:

④统计推断:由df1=9和df2=4及显著水平α=0.05查附表3得tt0.05(9)=2.262,t0.05(4)=2.776。因此

由于实得=0.838<t′0.05=2.350,故p>0.05,应接受H0μ12,故推断两种大米的粗蛋白含量无显著差异。

2.成对资料平均数的假设检验

若试验设计是将条件、性质相同或相近的两个供试单元配成一对,并设有多个配对,然后对每一配对的两个供试单元分别随机地给予不同处理,这样的试验叫做配对试验。它的特点是配成对子的两个试验单元的非处理条件尽量一致,不同对子的试验单元之间的非处理条件允许有差异。配对试验的配对方式有自身配对和同源配对两种。所谓自身配对是指在同一试验单元上进行处理前与处理后的对比,如同一食品在储藏前后的变化等。同源配对是指将非处理条件相近的两试验单元组成对子,然后分别对配对的两个试验单元施以不同的处理。如按产品批次划分对子,在每一批产品内分别安排一对处理的试验,或同一食品平分成两部分来安排一对处理的试验等。配对试验因加强了配对处理间的试验控制(非处理条件高度一致),使处理间可比性增强,试验误差降低,因而试验精度较高。

从配对试验中获得的观测值因是成对出现的,故叫做成对资料。与成组资料相比,成对资料中两个处理的数据不是相互独立的,而是存在着某种联系。因而对其作样本平均数的差异显著性检验时,应从成对数据的角度切入。

可以将两个处理设想为两个总体。第一个总体观测值为x11x12,…,x1∞,第二个总体观测值为x21x22,…,x2∞。两个总体观测值间由于存在着一定联系而一一配对,即(x11x21),(x12x22),…,(x1ix2i),…,(x1∞x2∞)。每对观测值之间的差数为:di=x1i-x2ii=1,2,…,∞)。差数d1d2,…,d组成差数总体,总体平均数用μd表示。实际上,μd=μ12。所以,在μ1=μ2时,μd=0;反之μd0。

在上述两总体中抽出n对数据组成样本,每对数据的差数组成差数样本,即d1d2,…,dn

差数样本的平均数

差数标准差

差数均数标准误

服从自由度为df=n-1的t分布。在无效假设H0μ1=μ2,即μd=0时,t值为

于是便可对成对资料平均数进行假设检验。

项目三 总体参数的区间估计

研究某一事物,总希望了解其总体特征。描述总体特征的数为参数。然而,总体参数往往无法直接求得,都是由样本统计量来估计的。在前面统计假设检验方法的学习中,我们都是用某一个样本统计量直接估计相应的总体参数。例如以样本平均数估计总体平均数μ,用样本方差S2估计总体方差σ2。这样的参数估计方法叫做点估计(point estimation)。但由于样本是由总体中抽出的部分个体构成,受抽样误差的影响,使得即使来自同一总体的不同样本求得的S2也不同。究竟用哪个样本的统计数更能代表相应的总体参数呢?这很难判断。因此,合理的办法是在一定概率保证下,结合抽样误差,估计出参数可能出现的一个范围(区间),使绝大多数该参数的点估计值都包含在这个区间内。这种估计参数的方法叫做参数的区间估计(interval estimation),所给出的这个区间称为置信区间(confidence interval,CI)。区间的上、下限,分别用L1L2表示。置信上、下限之差值称为置信半径。置信半径的一半称为置信距。保证参数在置信区间内的概率称为置信度或置信概率(confidence probability),以p=1表示(α为显著水平)。描述总体的参数有多种。各种参数的区间估计计算方法有所不同,但基本原理是一致的,都是运用样本统计数的抽样分布来计算相应参数置信区间的上、下限。

一、总体平均数 的区间估计

1.利用正态分布进行总体平均数μ的区间估计

当样本来自正态总体,且总体方差σ2已知时;或者n足够大时,总体均属μ的置信度为1的置信区间是

其置信下、上限为

式中:μα是两尾概率为α时的临界u值,如u0.05=1.96、u0.01=2.58。

由上面公式计算可知,若置信度大,求出的置信区间就宽,而相应的估计精度就较低;反之,置信度小,置信区间就窄,相应的估计精度就较高。这里置信度与估计精度成了一对矛盾。解决这一矛盾的办法,应是降低试验误差和适当增加样本容量。

2.利用t分布进行总体平均数μ的区间估计

若总体方差σ2未知,只要样本来自正态总体,不论小样本还是大样本,统计量t=/Sx-服从具有自由度df=n-1的t分布。于是很容易推导出总体平均数μ的置信度为1的置信区间是

其置信下、上限为

式中:tα(df是由两尾概率为α及自由度df=n-1查附录3得到的临界t值。

【例5-8】求【例5-4】中采用新工艺后每100g山楂出果冻量的总体平均数μ的置信度为99%的置信区间。

本例中=520g、S=12g、n=16、df=n-1=16-1=15,由1可知α=0.01,查附表3得t0.01(15)=2.947。

所以采用新工艺后每100g山楂出果冻量为511.159~528.841g。此估计的可靠度为99%。在大样本情况下,也可由μ作较为粗略的区间估计,此时σS代替。

二、两个总体平均数差数 的区间估计

这是由两个样本平均数的差数去作它们所在总体平均数差数μ12的区间估计。这种估计一般在确认两总体平均数有本质差异时才有意义。估计的方法因采用的概率分布不同而异。

1.利用正态分布进行两总体平均数差数μ12的区间估计

如果两总体为正态总体,且两总体方差已知;或者虽然两总体方差未知,但两个都是大样本时,对μ12的置信度为1-α的置信区间:

其置信下、上限:

式中:μα为置信度1对应的两尾概率α的临界μ值。

如果总体方差未知,但n130、n230时,可由样本方差估计总体方差

2.利用t分布进行两总体平均数差数μ12的区间估计

利用t分布进行μ12的区间估计方法又因为试验设计和数据特点不同而分为针对成组资料和成对资料的两种方法。

(1)成组资料两总体平均数差数μ12的区间估计 如果两总体为正态总体,并且总体方差相等,无论是大、小样本,只要是分别独立获得的,则有t=服从具有自由度df=n1+n2-2的t分布。由此容易导出满足上述条件的μ12的置信度为1置信区间:

其置信下、上限为:

式中,tα(df为由两尾概率α和自由度df=n1+n2-2查附录3所得临界t值。

【例5-9】在选择酱油蛋白质原料时,分别从花生饼和菜籽饼中各随机抽取了10个样品来作对比试验,测得花生饼的粗蛋白平均值=44.5%,标准差S1=3.5%;菜籽饼的粗蛋白平均值=36.9%,标准差S2=3.4%。试估计两种酱油蛋白质原料在粗蛋白含量上差数的置信度为95%的置信区间。

本例n1=n2=10,故

已知α=0.05,df=n1+n2-2=10+10-2=18,查附录3得t0.05(18)=2.101。

因此μ12的95%置信区间:

L 1 =(0.445-0.369)-2.101×0.0154=0.044

L 2 =(0.445-0.369)+2.101×0.0154=0.108

所以,花生饼原料的粗蛋白含量比菜籽饼原料的粗蛋白含量最少要多4.4%,最多要多10.8%,此估计得可靠度为95%。

(2)成对资料总体差数平均数μd的区间估计 成对资料两总体差数平均数μd(也等于两总体均数的差数)可由下式作置信度为1的区间估计:

其置信下、上限为

式中,tα(df为自由度df=n-1和两尾概率α对应的临界t值。

【例5-10】为研究电渗处理对草莓果实中钙离子含量的影响,选用10个草莓品种来进行电渗处理与对照的对比试验,结果如表5-6所示。问电渗处理对草莓钙离子含量是否有影响?以及电渗处理和对照两种草莓果实的钙离子含量差异μd作置信度为99%的区间估计。

表5-6 电渗处理草莓果实钙离子含量 单位:mg

本例因每个品种实施了一对处理,所以试验资料为成对资料。

①建立假设:

H0μd=0,即电渗处理后草莓果实钙离子含量与对照的钙离子含量无差异。

HAμd0,即电渗处理后草莓果实钙离子含量与对照的钙离子含量有差异。

②确定显著水平:α=0.01(两尾概率)。

③检验计算:

④统计推断:由df=9和α=0.01查临界t值得t0.01(9)=3.250。由于实得=8.356>t0.01(9)=3.250,故p<0.01,应否定H0,接受HA,认为电渗处理后草莓果实钙离子含量与对照的钙离子含量差异极显著,即电渗处理能提高草莓果实钙离子含量。

⑤置信区间

已知:=3.518mg,=0.4209mg,df=n-1=10-1=9。由1-α=0.99得α=0.01;查附录3得t0.01(9)=3.250。

计算出μd的99%置信区间为

L 1 =3.518-3.250×0.4209=2.150(mg)

L 2 =3.518+3.250×0.4209=4.886(mg)

所以,可推断电渗处理后草莓果实的钙离子含量要比对照的高2.150~4.886mg,此估计可靠度为99%。

练习题

1.统计假设检验的概念是什么?有哪些基本步骤?

2.在什么情况下应用一尾检验或二尾检验?

3.什么是统计假设检验的第一类错误和第二类错误?

4.参数的区间估计的含义是什么?

5.从胡萝卜中提取β-胡萝卜素的传统工艺提取率为91%。现有一新的提取工艺,用新工艺重复8次提取试验,得平均提取率=95%,标准差S=7%。试检验新工艺与传统工艺在提取率上有无显著差异。

6.分别在10个食品厂各测定了大米饴糖和玉米饴糖的还原糖含量,结果如下表所示。试比较两种饴糖的还原糖含量是否有显著差异。

10个食品厂大米饴糖和玉米饴糖的还原糖含量 单位:%

7.某药厂生产复方维生素,要求每50g维生素含铁2400mg。从该厂某批产品随机抽取5个样品,测得含铁量(mg/50g):2372、2409、2395、2399、2411,判断该批产品含铁量是否合格。

8.用新旧两种方法测定某乳制品中的蛋白质含量,取5份乳制品样品,每份乳制品样品均分为两份,分别用新旧两种方法测定蛋白质含量,测得的数据如下表所示,判断新旧两种方法之间有无显著性差异。

新旧两种方法测定蛋白质含量的数据 单位:g/L