4.2 一元线性回归
4.2.1 作图法求两变量间的关系
在分析测试中,几乎每个分析结果都是通过校准曲线计算而得的。无机材料中的锰量通常用高锰酸盐光度法测定,在分光光度计525nm测量高锰酸盐的吸光度,其吸光度与锰的浓度的关系列于表4-1。
表4-1 吸光度与锰量的关系
将锰量和相应的吸光度分别标在坐标的x轴和y轴上,各数据点之间近于一条直线。在坐标纸上可画出一条近似地反映吸光度与锰量间关系的直线(图4-1)。根据测量的吸光度,可以在此直线上查出相应的锰量。在缺少计算器和计算机的年代,多数的分析测试都是在坐标纸上画线并查取和计算待测成分的含量。
图4-1 锰量与其吸光度关系的对应图
在测量点较少,线性关系较好的情况下,不同人凭直觉画出的回归直线的差异不大。但当测量点较多且较分散时,不同人就可能画出不同的回归直线,即得出不同a、b系数的线性方程,这样查取和计算出待测成分的含量亦有所不同。究竟哪一条回归直线最能反映锰量与吸光度之间的关系?在数理统计中,采用最小二乘法原理可很好解决这一问题。
4.2.2 一元线性回归方程的建立
4.2.2.1 无重复测量回归方程
由图4-1可知,相应于每个试验点(锰量),测量一次吸光度,吸光度A与锰量间有良好的线性关系,但是测量点并不都落在直线上,或多或少与直线存在一定的距离。根据朗伯-比尔定律,测量物质的浓度与吸光度有严格的线性关系。光度分析测量中,测量物质的浓度c是可控制的变量,称为自变量,而测量的吸光度A是不可控变量,称为因变量,因变量是一个随机变量。通常,测量的吸光度除了与浓度遵循朗伯-比尔定律外,还受其他一些因素和测量误差的影响,测量的吸光度并不都落在直线上。
因此,对一般y随x变化的线性关系可认为由两部分组成,一是由自变量x的变化引起因变量y线性变化的部分,记为a+bx,a、b称为回归参数,二是由其他随机因素引起的,记为ε。因此,可认为y与x之间有如下关系
(4-1)
该关系式由三个部分组成:
①常量a,回归线在纵坐标上的截距,它是y的本底水平,即x对y没有任何作用时,y的数量表现。
②回归系数b,它表示因变量y的取值改变中,由于y与自变量x线性相关关系所引起的变化率,即指当自变量x改变一个单位时,因变量y改变量的平均估计值。b是可由x直接估计的部分。
③试验误差ε ,它表示因变量y的取值由未进入该模型或未知但可能与y有关的随机和非随机因素共同引起的不能由x直接估计的部分。在回归方程中,第i个观测值的误差εi等于因变量的实测值yi与其估计值(回归值)之差,即
回归分析的目的是找出a、b的估计,并除去ε,建立线性方程=a+bx。
设来自(x,y)的样本为(xi,yi),i=1,2,…,n,则有:
εi表示第i次测量的观测值yi与回归方程估计值之差,称为第i次测量的变差,又称残差。
用Qe表示变差εi的平方和,它表征各观测值yi偏离回归方程估计值的程度,则
(4-2)
Qe随不同的a、b值而变化。为使所求的回归方程最能反映各试验点的真实分布,使试验点与回归直线拟合程度最好,应使实际测量值yi与方程的回归值之差的平方和达到最小值。最小二乘法就是求回归参数的估计值a和b,使Qe达到最小,或者说求使Qe达到最小时的a、b值。
按最小二乘法,回归参数a、b值应满足:
(4-3)
满足Qe最小的条件是:
得
(4-4)
求解方程组:
整理方程组可得:
令
则
(4-5)
(4-6)
由此求得一元线性回归方程:
(4-7)
由于回归方程有两个限制条件,其自由度ν=n-2。
回归方程变动性(各试验点对回归线的离散度)的标准差:
(4-8)
式(4-6)表明,回归直线一定通过(,)点,该特性对作回归直线是十分重要的。
由式(4-7)求得的是因变量y对自变量x的回归方程。对一组x和y的测量数据,由于y对x的回归方程与x对y的回归方程是基于不同的变差平方和求得的,如果混淆因变量和自变量,求得的两个回归方程是不同的,在坐标上画出的回归线也不是同一条线。
在分析测试中,通常是通过物质浓度x的变化,测量相应的光谱强度、吸光度、质谱强度、色谱峰高度或面积等响应值y来确定回归方程(或绘制校准曲线),物质浓度x是分析者定量加入的标准溶液或采用的标准物质,其量是可以确定的和可控制的,是一个自变量,而测量的响应值y受自变量x、测量误差及其他影响是不可控的,是一个因变量。因此,建立的应该是因变量y对自变量x的回归方程,并由测量的响应值计算样本中待测物质的浓度。
【例4-1】 按表4-1数据,计算锰的吸光度A对其锰量c的回归方程。
解 按题意,锰量c为自变量,吸光度A为因变量,得计算得,,于是:
得回归方程:
回归方程标准差se=0.0140。
用该回归方程反估锰含量c,方程为:
而如果在数学上将吸光度A当作自变量,锰含量c作因变量,计算的回归方程为:
两个公式计算的浓度c是不同的,用后一个公式计算浓度c是不合适的。
当然,在有些相关关系中,x和y都可以是随机变量(属于双变量正态分布),例如,某班级男生的身高(x)和体重(y)有一定的相关关系,x和y都是随机变量,则可以计算两个回归方程
(4-9)
(4-10)
式(4-9)是因变量体重(y)对自变量身高(x)的回归方程,式(4-10)是因变量身高(x)对自变量体重(y)的回归方程。
线性回归方程是一种统计关系,反映因变量y随自变量x变化的平均情况,变量间在一定取值范围内具有线性关系,但并不意味着它们之间在任何取值范围内都具有线性关系。从统计学考虑,回归方程并不能将因变量和自变量的关系随意外延。
4.2.2.2 有重复测量回归方程
在分析测试(特别是仪器分析)中,有时对各试验点进行多次测量,有等重复测量,有不等重复测量,不同情况得到的回归方程是不一样的。
(1)等重复测量 对各试验点(xi,i=1,2,…,n)进行等重复测量m次,得m个 测量值(yij,j=1,2,…,m)。在计算回归方程时,则应对nm个测量数据(xij,yij)进行回归计算。例如,火花发射光谱法测定六个合金结构钢标准物质中的钼,每个标准物质测量3次,测量结果见表4-2,将每次测量的光谱强度值对钼含量回归,nm=18,得回归方程及其标准差、相关系数和自由度分别为:
表4-2 钼含量和光谱强度值
如果以各标准物质光谱强度平均值对钼含量进行回归,n=6,则回归方程及其标准差、相关系数和自由度分别为:
两者回归方程的截距和斜率相同,但自由度ν不同,计算的标准差和相关系数略有不同。分析测试中应按实际测量次数的响应值与测量点浓度进行回归,在随后计算回归方程置信区间,或计算待测物质浓度的测量不确定度时,不同的标准差和自由度其计算结果是不同的。
(2)不等重复测量 当各测量点的测量次数(mi)不同时,不同的回归方式,得到的回归方程是不同的。表4-3给出了用钼蓝光度法测量硅含量时每个测量点不同测量次数的吸光度,将每次测得的吸光度A对浓度c回归,∑mi=20,则回归方程及其标准差、相关系数和自由度分别为:
表4-3 硅含量和吸光度值
如果以吸光度平均值对浓度c进行回归,n=5,则:
两方程表明,当各测量点测量次数不同时,两方程的截距和斜率不同,其标准差和相关系数也不同。各测量点响应值通常是非等精度的,将各测量点响应值进行回归,则得到的回归方程反映测量的实际精度和状态,也就是回归方程给予测量次数多的测量点更多的权(加权回归模式)。而如果取响应值的平均值进行回归,就等于将其各测量点的精度等同处理,并不是真实反映测量精度分布的实际情况。
4.2.3 一元线性回归方程的有效性检验
对任何一组观测数据(xi,yi,i=1,2,…,n),不论x与y是否存在线性关系,都可以用最小二乘法求出线性回归方程。但是当x与y没有线性关系,或线性关系不显著时,形式上求出的回归方程是没有实际意义的。因此,对于给定的观测数据,有必要以统计检验的方法判断y与x之间是否存在显著的线性关系。
4.2.3.1 回归方程的方差分析和F检验
y受x及其他因素和实验误差的影响,回归系数b和截距a在一定范围内有所波动,各实验点的(xi,yi)不一定都落在回归线上。各实验点偏离其平均值的程度,可用它们总的变差平方和QT来表征。
式中
因此,
(4-11)
式中,,称为总变差平方和,νT=n-1;
,称为回归变差平方和,νR=1;
,称为剩余变差平方和,νe=n-2。
由上式可知,总变差平方和可分解为回归变差平方和与剩余变差平方和(见图4-2)。总变差平方和QT表示取值y1、y2、…、yn与它们的平均值的变差平方和,即取值的分散程度;QR表示y随x的变化,它是与它们的平均值的变差平方和,表示的分散程度。在回归方程确定后,因变量的分散性是由自变量x1、x2、…、xn的分散性引起的;试验剩余变差平方和Qe描述了非线性变动性的大小,包括试验误差和(或)x对y非线性影响及其他因素对y数据变动的影响。当不存在非线性及其他影响因素时,剩余变差平方和即为试验误差平方和。
图4-2 变差平方和的分解
因此,由于QT=QR+Qe,当QT给定后,QR愈大,Qe愈小,则x对y的线性影响愈显著。如果,则所有试验点都落在回归直线上;而当时,,则y与x间不存在任何依赖关系,回归线是一条等高度的与x轴平行的直线,b=0(即等于截距a)。由此, QR与Qe的大小直接反映因变量y与自变量x之间的相关程度。
以下采用方差分析来进一步讨论和检验y与x线性关系的相关性。
检验假设H0:b=0。
计算统计量:
(4-12)
式中,νR是回归变差平方和的自由度,νR=1;νe是误差变差平方和,νe=n-2。当F值大于相应自由度下的临界值,拒绝接受H0,表明在0.05显著性水平下线性回归效果显著,即y与x间存在显著的线性相关关系,建立的回归方程(及相应的回归线)是有意义的;而当F小于或等于,接受H0,表明线性回归效果不显著,y与x间不存在显著的线性相关关系,建立的回归方程是没有意义的。方差分析统计见表4-4。
表4-4 方差分析统计表
【例4-2】 对表4-1的测量数据进行方差分析,检验回归方程的显著性。
解 例4-1已计算得锰吸光度A对其含量c的回归方程为:
由回归方程计算各变量xi的,计算各yi的平均值,得
计算总平方和QT、回归平方和QR和误差平方和Qe:
计算方差检验统计量:
查F分布表,F0.05(1,6)=5.99,F>F0.05(1,6),说明相对于试验误差,线性回归效果显著,回归方程是有意义的。
4.2.3.2 相关系数(r)检验
对回归方程的显著性检验,更常用的是相关系数检验法。
由于
将此代入式(4-11),得:
令相关系数为r,r表示y与x线性关系密切程度的量,其取值范围为≤1,
(4-13)
则:
相关系数r亦可表示为:
(4-14)
又,
(4-15)
整理得,
(4-16)
由此,一元线性方程的相关系数检验与F检验是一致的,相关系数r平方表示y随x的线性变化引起的回归平方和与总变差平方和的比值。相关系数r究竟多大时可认为建立的回归方程(或回归线)有意义呢?由式(4-15),当回归的变差平方和相对于试验误差的方差是显著时,即方差检验统计量F大于相应临界值F0.05(1,ν),可认为回归方程是有意义的。由式(4-16),可通过方差检验相应临界值F0.05(1,ν)计算回归方程相关系数的临界值r0.05,ν。表4-5列出了不同显著性水平α与自由度ν的相关系数r的临界值。
表4-5 相关系数临界值rα,n-2表
例如,α=0.05,n=8,ν=n-2=6,查得F0.05(1,6)=5.99,由式(4-16)计算得:r0.05,6=0.707。
作因变量y和自变量x的关系图,是判断相关关系较为直观的方法。图4-3表示了不同相关系数r的直观示意图。
图4-3 相关系数r的直观示意图
【例4-3】 按表4-1数据计算回归方程的相关系数。
解 由例4-1和例4-2,计算得:
查相关系数临界值表,r0.05,6=0.707,r0.01,6=0.834,r大于r0.05,6和r0.01,6,相关系数检验表明回归方程是有意义的,这与方差检验的结果是一致的。
由式(4-14),相关系数r的符号与回归系数b的符号一致,回归系数b的符号有正有负,相关系数也可正可负。
①当r=0,b=0时,表示y与x不存在线性相关,散点分布图无规则。
②当0<<1时,表示y与x间存在一定的线性相关。当r>0,即b>0时,散点图上y随x的增加表现为递增趋势,称y与x呈正相关;当r<0,即b<0时,散点图上y随x的增加表现为递减趋势,称y与x呈负相关。
③愈接近1,表示y与x间的线性相关愈强,散点图上点的分布愈靠近回归直线。
④当=1时,表示y与x间存在严格的线性关系,所有试验点均落在回归直线上。当r=1时,称y与x间完全正相关;r=-1时,称y与x间完全负相关。
当QT固定时,愈大,表示QR愈大,Qe愈小,即剩余变差平方和愈小,说明y与x间相关程度愈密切;而愈小,表示QR愈小,Qe愈大,剩余变差平方和愈大,说明x与y间相关程度愈弱。
用相关系数检验y与x间的线性相关性,检验法则为:
,认为线性关系显著;
,认为线性关系不显著。
需要指出的是,分析测试与试验研究对回归曲线相关性的要求有所不同。试验研究或生产工艺试验等工作中,根据试验结果考察自变量与因变量之间是否存在显著的相关性,找出事物变化规律的因果关系,通常采用相关系数临界值来判断。例如,化工产品的产率与温度(或压力)试验,粮食产量与施肥(或降雨量)关系的考察等,其相关关系可以用回归方程的相关系数评价。
在分析测试中,对已认证的分析方法(如分析方法标准、常规方法等),通常已消除了系统误差,并确认物质的测量信号与浓度的回归方程存在良好的线性关系(如吸收光度法的朗伯-比尔定律)。但是,由于测量误差,回归方程存在一定的变动性,我们希望回归方程的变动性尽可能小一些,相关系数尽可能大一些(更接近于1)。分析测试中回归方程的相关系数,不是用来判断其是否有相关性,而是判断由其计算测量结果的可靠性。因此,分析测试对回归方程(校准曲线)的线性关系有较严格的要求,通常要求相关系数大于0.995或0.99以上(对痕量分析,相关系数的要求可适当低一些),许多分析方法标准对校准曲线的相关系数做出了明确的规定。如果相关系数小于规定的要求,说明校准曲线的随机误差偏大,应查找原因,或重新校准。
回归分析中有时采用决定系数(R2)来描述回归方程的相关性。决定系数R2表示了回归平方和在总平方和中所占的比重:
(4-17)
可推导,得:
(4-18)
决定系数R2即为相关系数r的平方。R2愈大,表示回归平方和在总平方和中所占的比重愈大,即表明自变量x对因变量y的贡献愈大。例如,由某样本统计得女性的体重(y)和身高(x)有如下的关系:y=-78.12+0.82x,计算得r=0.9336, r>r0.01,10(0.708),表示体重与身高有显著相关性。又R2=0.8716,表示体重(y)的变化有约87%可以用身高(x)的因素来解释,而另外13%的部分是不能由身高因素解释的。采用决定系数,可以避免对相关系数r表示的相关程度作过分夸张的解释。
4.2.3.3 重复试验的方差分析和失拟变差平方和
以上讨论中:
当剩余变差误差平方和Qe≈0,则QT≈QR,r≈1,表示各试验点基本上都在回归直线上,这是分析测试中绘制校准曲线所希望的情况。但是,在分析测试实践中,虽然试验误差可以控制在很小范围内(或趋近于零),由于事物本身自变量和因变量受其他因素的影响,其关系并不是完全呈线性状态。有时虽然可以用线性回归计算其回归方程,但回归的线性方程与事物的本质仍然有一定的差异。
如分光光度法、原子吸收法分析中测量的吸光度与其元素含量遵循比尔定律,但当测量元素含量超出一定范围时,其吸光度并不随其含量呈线性增加,表现为校准曲线开始下弯。这时曲线下弯并不是试验误差造成的,而可能是光度计的单色性、检测器响应的线性、离子与显色剂的化学反应率、原子的自吸收等其他因素引起的。此时如果用相关系数r检验,虽然校准曲线可能仍有较好的显著性,但在其校准曲线上计算下弯部分测量结果可能引入较大的误差。也就是说,虽然自变量和因变量有较宽的动态范围,但真正适合分析测试的校准曲线可能只是其中的一段的范围。分析工作者应进一步分析曲线下弯的原因,并采取适当的措施消除、改善或避免。
从以上讨论可知,在试验研究和分析测试中,除试验误差外,还存在一些其他因素,使因变量和自变量间不完全呈线性关系。我们将这些影响回归曲线拟合的其他因素,称为失拟因素。很明显,剩余变差平方和Qe不仅包括试验误差,还包括失拟因素引起的变差平方和,将其记为Qd。
为将失拟变差从剩余变差平方和中分解出来,需进行重复试验。通过重复试验数据计算试验误差的变差平方和Qe,并将总的变差平方和QT分解为回归变差平方和QR、失拟变差平方和Qd、试验误差变差平方和Qe三部分。当无重复试验时,失拟因素的影响混杂在试验误差平方和中。
当有重复试验时,按式(4-6)、式(4-7)计算回归方程参数a、b,建立有重复测定的回归方程。回归方程总变差平方和QT为:
(4-19)
其中
m是试验点重复测定的次数,各变差平方和相应的自由度分别为:
(4-20)
如果失拟情况不严重,可以将失拟变差平方和Qd合并于试验误差平方和Qe中,计算合并变差平方和Q'e=Qd+Qe和合并自由度ν'e=νd+νe,此F检验的统计量:
(4-21)
当F大于,表明回归性是显著的,回归方程拟合得很好。
如果失拟情况严重,即除试验误差因素以外还存在其他非线性影响,而且失拟变差平方和Qd远大于试验误差变差平方和Qe,即剩余平方和基本上由失拟变差平方和组成。在统计上可计算失拟检验统计量:
(4-22)
当F大于时,表示失拟情况是显著的。影响回归方程拟合不好的原因,可能是x对y的非线性影响,或x之外的其他因素的影响,或者两者影响兼有之。当时,失拟情况不显著,可不必考虑其影响。
由以上分析可知,为检查是否存在失拟因素,需进行重复试验,在统计时分别计算失拟变差平方和和试验误差平方和,再进行方差分析和F检验。
【例4-4】 用铬天青S光度法显色测定铝,以铝的褪色液作参比,测定显色溶液的吸光度。显色液中的铝量与测得的吸光度如表4-6所示。试根据测量数据进行方差分析,并确定合适的回归方程。
表4-6 铝量与吸光度关系
解 根据测量数据,,,计算回归方程参数b和a,
建立的回归方程为:
相关系数:
查相关系数临界值表,r0.05,14=0.497,r>r0.05,14,表明建立的回归方程有显著的相关性。但是,在图4-4回归曲线上可观察到,铝浓度大于50μg/100mL时,试验点的吸光度偏低。对分析测试,希望采用符合比尔定律的校准曲线。可以预期,铝浓度0~50μg/100mL的回归方程比浓度0~70μg/100mL的回归方程有更好的线性关系。图4-4中(a)为0~50μg/100mL范围的校准曲线,(b)为0~70μg/100mL范围的校准曲线。
图4-4 铝的校准曲线
以下分别对两个铝浓度范围的回归方程进行失拟的显著性检验。
(1)铝浓度0~70μg/100mL回归方程失拟显著性检验 根据表4-6列出的测量数据,计算:
计算失拟检验的统计量:
查F分布表,F0.05(6,8)=3.58,F>F0.05(6,8),说明相对于试验误差,失拟效应是显著的。据分析实践知,大于50μg/100mL的实验点的曲线向下弯曲,并非是实验误差,而可能是由仪器单色器分光性能差、铝与铬天青S的络合反应速率或副反应的发生等因素造成的,失拟效应说明了这一点。
(2)铝浓度0~50μg/100mL回归方程失拟显著性检验 用0~50μg/100mL各实验点拟合回归方程,此时,n=6,m=2,计算得回归方程为:
同(1)的计算得:
从图4-4,铝浓度0~50μg/100mL范围内校准曲线有更好的线性关系,失拟效应的平方和Qd明显降低,计算失拟检验的统计量:
查F分布表,F0.05(4,6)=4.53,F<F0.05(4,6),说明相对于试验误差,失拟效应不显著。铝浓度0~50μg/100mL对其吸光度的校准曲线为:A=0.05038+0.01342c,相关系数为0.9995, 显著大于0~70μg/100mL回归方程的相关系数。此时,可将失拟变差平方和Qd合并在误差平方和Qe中,
相应的方差估计值:
由此,采用铝浓度0~50μg/100mL的校准曲线[图4-4(a)]的计算结果比0~70μg/100mL的校准曲线[图4-4(b)]的结果更可靠。实践中,对铝浓度大于50μg/100mL的试液,可采取适当措施(如减小称样量、减少试液分取量等)使显色液铝浓度控制在50μg/100mL以下。
用方差检验检查校准曲线是否存在失拟状态,需进行重复试验,计算亦较为麻烦。在实际分析工作中,取吸光度平均值,在坐标纸上观察实验点合适的线性范围;或借助Excel的回归功能,计算n个实验点回归方程,和舍去高端实验点后(如n-2、或n-3)后的回归方程,比较回归方程的相关系数r,确定合适的线性范围。这种方法虽带有较大的主观性,但仍是一种比较实用的检查方法。另外,分析者对分析方法的认知、测量条件的控制也是确认合适线性范围的一个重要因素。
对铝浓度0~70μg/100mL与其吸光度的关系,在数学上用一元二次方程,能得到相关性比一元一次线性方程更好的回归方程。表4-7列出了一元一次、一元二次回归方程及方程的标准差、相关系数等参数。回归参数说明,二次方程比一次方程有更好的相关性。但是,二次方程的回归计算复杂,在实践中用铝浓度0~50μg/100mL的回归方程有更好的实用性。
表4-7 回归方程比较
有一些分析仪器具有多次方程回归功能。例如,火花源原子发射光谱仪测定金属材料中的合金元素,测量范围宽,但由于受背景、元素间的干扰等影响,元素含量与其发射强度往往并不都呈线性关系,此时用二次或三次方程回归能更好地反映其相关关系。仪器具有多次方程回归的功能,计算程序可自动给出回归方程、相关系数和测量残差。
表4-7中一元一次、二次方程的回归可采用Excel表格的数据分析/回归进行计算,见第13章13.2.4.5。
4.2.4 回归方程的精度与置信区间
4.2.4.1 回归方程的精密度
自变量x和因变量y之间只是相关关系,各实验点的值并不都落在回归直线上。对同一样本,回归方程的精密度是指实验点围绕回归线的离散程度。这种离散程度是由试验误差和x对y的非线性影响引起的。其离散性的大小可用残差平方和(或称剩余变差平方和)Qe与称剩余方差表示,自由度ν=n-2,
其剩余标准差se,
(4-23)
当每个试验点重复测量m次时,
(4-24)
式(4-23)和式(4-24)表示所有随机因素(包括试验误差和x对y的非线性影响)对y测量值影响的标准差大小。
由于x与y只是相关关系,即使除x之外的其他条件保持不变,由不同样本的测量值得到的回归方程的回归系数b和常数项a也是有波动的。b和a的变动愈小,表示回归方程的稳定性愈好。b和a值变动性的大小可分别用它们的标准差sb和sa来度量。
4.2.4.2 回归系数b(斜率)的变动性及置信区间
据式(4-5)
由于,
于是,
当y的随机误差与浓度无关时,==…==,则:
(4-25)
回归系数b的置信区间为:
式中,tα,ν为显著性水平α和自由度ν=n-2时的置信系数,可由t分布表查得。
4.2.4.3 常数项a(截距)的变动性及置信区间
据式(4-7),
于是,
经变换得,
(4-26)
常数项a的置信区间为:
4.2.4.4 对取值x0的拟合值y0的变动性及置信区间
当由样本值建立y对x的回归方程时,y值不仅依赖于x的取值,也受回归曲线随机误差的影响,即a、b值稳定性的影响。这样,用来自同一总体的不同样本建立回归方程的a值与b值是不同的,它们会在一定范围内波动。因此,由于a、b值的变动性,相应于某一x的取值x=x0的y0也产生波动,其波动的大小反映y0的精度。
根据回归方程y=a+bx,由取值x0求y0的标准差,不仅要考虑回归方程的剩余标准差se,a和b变动性标准差sa和sb,同时由于参数a和b是由同一组测量结果计算得到的,两者之间存在一定的相关性,还要考虑a和b之间的协方差,协方差的大小与a、b间的相关系数r(a,b)有关。
由于:
对等式两边求方差,并考虑a和b之间的协方差,得:
由于
(4-27)
由此,r(a,b)是一个负值,因而它们的协方差也是一个负值。
对一次确定的抽样或任何一个给定的x值,设x=x0,通过回归方程得到拟合值y0,则可计算y0的标准差。
x0和y0满足以下关系:
对等式两边求方差,得:
(4-28)
整理得:
(4-29)
(4-30)
对一次确定的抽样和任一个取值x=x0,计算得的测量值y0的变动性不仅要考虑随机抽样对a、b值本身变动性的影响,还要考虑由于实验条件的变动性引起随机误差se的影响。这两种影响是互相独立的,根据误差传递原理,y0单次测量的方差为:
其标准差为:
(4-31)
y0相应的置信区间为:
(4-32)
式中,tα,ν为自由度ν=n-2、显著性水平α时的t分布值,注意此t值是双侧检验临界值,这是因为置信区间位于回归直线y0的上下两侧。
当对y0进行p次重复测量,则y0的标准差:
(4-33)
相应y0的置信区间为:
(4-34)
由此,回归直线y的置信区间为:
(4-35)
根据sy画出回归方程的置信区间,见图4-5。
图4-5 回归方程的置信区间
可以预测,在一系列的测量中,在这带形区间内大约包括(1-α)的测量结果。
4.2.4.5 对测量值x的预测
在分析测试中通常使用回归方程y=a+bx进行反估,由试验测得的y值,计算测量值x:
x值的精密度由se及a、b的变动性和它们的相关性决定。由此,测量值x的标准差为:
(4-36)
或
(4-37)
测量值y的标准差sy,或以此计算x值的标准差sx,不仅决定于剩余标准差se,还与以下因素有关:用于建立回归方程的试验点数目n;自变量x的取值范围;测量的重复次数p;测量值y(或x)与试验点平均值(或)的接近程度。
因此,为提高测量精度,在试验方法的设计上,应增加试验点数目n,增加样品重复测量次数p,在设计校准曲线时尽可能使测量值x接近于试验点xi的平均值,当x的取值x=x0时,sx最小。
在最小二乘法计算回归方程的不确定度评定中,采用式(4-36)或式(4-37)评定回归值的标准不确定度分量。
需要指出的是,回归方程一般只适用于原来的试验范围,应用时不能随意将确定的回归直线外延。回归线的延长线上自变量和因变量的关系未必遵循该回归方程的表达式。例如,例4-4中,铝浓度大于50μg/100mL时,其吸光度不能用铝浓度0~50μg/100mL的回归方程计算,测量数据表明,铝浓度0~50μg/100mL与0~70μg/100mL回归方程有显著性差异。如果需要扩大应用范围,务必要有充分的理论依据,或有进一步的试验数据为依据。这是分析实践中需注意和处理好的问题。
【例4-5】 在例4-4中,采用铝浓度0~50μg/100mL范围的校准曲线,分别对某试样进行三组不同的重复测定。为计算方便,根据试样量、显色试液分取比,铝浓度0~50μg/100mL范围相当于试样铝含量0~0.50%。三组测量所得吸光度分别为:
(1)样品重复测量两次,吸光度0.406、0.412;
(2)样品重复测量五次,吸光度0.414、0.404、0.408、0.410、0.406;
(3)样品重复测量十次,吸光度0.408、0.406、0.414、0.410、0.403、0.415、0.410、0.408、0.412、0.404。
试计算不同测量情况下该试样铝含量测量值的置信范围。
解 根据例4-4,铝量xi与吸光度A的关系如表4-8所示,试验点n=12。
表4-8 铝量与测量吸光度的关系
从测量数据计算得校准曲线回归方程为:
计算回归方程的标准差:
各实验点的xi平均值。
(1)根据测量的吸光度,代入回归方程,铝含量结果为0.2650%、0.2694%,平均值,回归方程的变动性引起测量值的标准差:
因此,在0.05显著性水平, ,测量值的置信范围为0.267±2.23×0.0044≈(0.267±0.010)%。
(2)根据测量的吸光度,代入回归方程,铝含量结果为0.2724%、0.2650%、0.2664%、0.2679%、0.2650%,平均值%,回归方程的变动性引起测量值的标准差:
在0.05显著性水平,测量值的置信范围为0.267±2.23×0.0031≈(0.267±0.007)%。
(3)根据测量的吸光度,代入回归方程,铝含量结果为0.2664%、0.2635%、0.2709%、0.2679%、0.2620%、0.2712%、0.2779%、0.2664%、0.2694%、0.2635%,平均值=0.2670%,回归方程的变动性引起测量值的标准差:
在0.05显著性水平,测量值的置信范围为0.267%±2.23×0.0025%=(0.267±0.006)%。
计算结果表明,随着重复测量次数增加,由回归方程引起的变动性和测量重复性的标准差随之减少,测量值的置信范围亦随之变小。但是,随着测量次数的增加,置信范围变小的速度也随之减小。测量次数n=2、5和10时,测量值的置信范围分别是±0.010、±0.007和±0.006。在分析测试中,过多的测量次数并不与获得的可靠性成正比,在获得结果可靠性的同时也要兼顾测量的成本。
4.2.5 两条回归直线的比较
在分析实践中,经常会遇到这样一个问题:同一台仪器在不同时间,或不同人员用相同方法对同一测量对象测量得到的两条回归直线不一定都相同,包括两条回归直线的标准差不同,或斜率不同,或截距不同,或斜率和截距都不同。试问这两条回归直线是否有显著性差异,两条回归直线是否可合并后计算测量结果。要回答这些问题,就要对这两条回归直线进行比较,在统计上检验回归直线的方差、斜率b和截距a是否发生显著性变化。如果这两条回归直线之间无显著性差异,即将其合并为一条回归直线来表示其x和y间的关系。
设有两条回归直线(回归方程):
在统计上,可按以下步骤检验两条回归直线是否一致。
(1)用方差检验检查两回归直线的方差是否有显著性差异。 计算统计量:
(4-38)
通常把大的方差作为,小的方差作为 (设置为分母),n1、n2分别为两条回归线的实验点数目。
当与无显著性差异时,计算它们的合并方差:
(4-39)
(2)检验回归系数b1与b2间是否存在显著性差异。计算统计量:
(4-40)
式中, 为b1与b2之差的标准差,当与无显著性差异时,
(4-41)
自由度ν=n1+n2-4。
若统计量t小于相应的统计量tα,ν,表明斜率b1和b2是一致的,可用加权法求出合并回归直线的斜率:
(4-42)
当x1i和x2i取值相同时,可简化为:
(4-43)
b1和b2的一致性,表明两回归直线是平行的或基本平行。两回归直线是平行但未必是重合,为证明两回归直线是否重合,还需检验a1和a2的一致性。
(3)检验截距a1和a2间是否存在显著性差异。计算统计量:
(4-44)
式中,是a1与a2之差的标准差。当与无显著性差异时,
(4-45)
自由度ν=n1+n2-4。
当统计量t小于给定显著性水平α和相应自由度ν的临界值时,认为a1和a2无显著性差异,可用加权法计算合并的值,即两条回归线的共同截距:
(4-46)
当n1=n2=n时:
这样,如果两回归直线的s2、b、a都没有显著性差异,则可将其合并为一个新的回归方程:
(4-47)
需要指出的是,两回归直线检验按s2、b、a的顺序进行,后一步骤的检验将用到前一步骤的结果。
如果两条回归直线检验的s2、b、a有显著性差异,则需考虑修正、重建回归方程,或重新进行试验。
在分析测试中,可以采用更简便的方法来判断两条回归直线的一致性。将检验的两条回归直线中的任一条作基准,按式(4-32)计算该回归直线的置信区间,如果另一回归直线的实验点落在基准回归直线的置信区间内,则认为两条回归直线是一致的,这时可将所有实验点拟合成一条共同的回归直线。
【例4-6】 用ICP-AES法测定一批低合金钢中镍含量,并在样品测量前和测量后分别作校准曲线,校准曲线测量数据如表4-9所示。试问两条校准曲线在统计上是否一致,是否可用合并的校准曲线(回归方程)计算分析结果。
表4-9 镍含量和光谱强度参数
解 由式(4-5)和式(4-14)分别计算得测量前和测量后光谱强度对镍含量的回归方程和相关系数:
相关系数均大于其临界值(r0.05,3=0.878),所确定的回归直线都是有意义的。
按式(4-23)计算得两回归方程的I的标准差分别为s1=1.577和s2=2.020,方差检验统计量:
查F分布表,F0.05(3,3)=9.28,F<F0.05(3,3),表明两回归方程的方差无显著性差异。按式(4-39)求出合并方差=3.28,=1.81,按式(4-41)计算两回归系数b1和b2之差的标差:
两回归方程截距a1和a2之差的标准差按式(4-45)计算:
计算t检验统计量:
查t分布表,t0.05,6=2.45,tb和ta均小于t0.05,6,统计数据表明两回归方程的回归系数和截距均无显著性差异。
于是,求出回归系数和截距的加权平均值:
由此,两回归方程可拟合成一个新的回归方程和一条回归直线:
并通过合并的回归方程(校准曲线)计算分析结果。
从回归得到的方程可看出,由于测量前的回归方程的标准差小于测量后回归方程的标准差,拟合方程的回归系数b更靠近测量前回归方程的回归系数b1,即标准差小的回归方程所占的权重大。
本例亦可用第8章8.3.4.1多水平测量结果的统计方法进行比较。由于自变量xi取值相同,以测量后对测量前进行线性回归,计算得回归方程:I2=-0.246+1.0027I1,截距a的标准差sa=0.791,斜率b的标准差sb=0.00764,然后将a与0比较、b与1比较,进行t检验。统计结果亦表明两校准曲线无显著性差异。
4.2.6 一元线性回归方程在分析测试中的应用
在缺少计算器和计算机的年代,多采用在坐标纸上绘制吸光度与物质浓度关系的校准曲线的方法,再根据测量的吸光度在校准曲线上查取待测物质的浓度(或分析结果)。这种凭分析人员目视的直觉绘制的校准曲线,当试验点离散性较大时,不同人可能绘制出不同的校准曲线,这样查出的分析结果就可能引入较大的人为误差。如果用人工计算回归系数b、截距a和相关系数r,不仅计算工作量大,而且容易出错。当今的分析仪器基本上都带有回归功能的软件,计算和显示回归方程的各项参数,并直接给出待测物质的浓度(或分析结果)。使用函数计算器,或在计算机上采用Excel功能、专用统计软件,或自编程序,可十分方便地绘制校准曲线和计算分析结果。采用计算机处理测量数据时要注意比较和确定校准曲线合适的线性范围,通过计算和比较,有时人为干预是必要的。例4-4和图4-4比较了两条校准曲线,数据表明,采用铝含量0~50μg/100mL的校准曲线对测量结果有更好的精密度和准确度。
4.2.6.1 校准曲线法
现代分析仪器采用的都是相对测量方法,根据校准曲线进行定量分析。大多数分析测试,如分子吸收、原子吸收、发射光谱、原子荧光、离子选择电极等分析方法的检测信号与待测成分的浓度的关系可用一元线性回归方程表示,或经数学变换后以一元线性回归方程表示,根据待测物质的测量信号用校准曲线定量计算物质的浓度。
采用校准曲线法计算分析结果要注意以下问题:
①计算校准曲线回归方程时不要混淆自变量和因变量的关系。
②图4-5回归直线的置信区间和式(4-34)表明,待测成分浓度接近校准曲线浓度平均值时其测量精度最高。校准曲线系列标准溶液(标准物质)的浓度与待测成分的浓度要正确匹配,尽量使待测成分浓度控制在校准曲线中间部位,一般不能在校准曲线的延长线上查取或计算分析结果。在特殊情况下,除非有足够的试验证据表明校准曲线有较宽的线性范围,才可在校准曲线最高(或最低)试验点接近的测量点上计算分析结果。因此,任何测量都不希望绘制的校准曲线使待测成分浓度位于其曲线的上限或下限附近。为提高测量的精度和准确度,不宜同时在一条校准曲线上测量并计算高含量和低含量的测量成分。高含量和低含量成分的测定应分别绘制校准曲线,虽然有些仪器和分析方法校准曲线的线性范围很宽(达3~4个数量级),但不宜用一条校准曲线同时测量浓度相差3~4个数量级的待测成分。
③增加样品重复测量次数p,和增加校准曲线实验点测量次数n,都可以减小测量的随机误差,提高测量精度。而增加测量次数p比增加实验点测量次数n的效果更明显。
④对绘制校准曲线,在测量次数相同的情况下,增加实验点数目(减少每一实验点重复测量次数)比增加实验点重复测量次数(减少实验点数目)更能有效提高校准曲线的精度。但随着实验点数目的增加,校准曲线精度的提高速率逐渐减慢,当n>6时,再靠增加实验点数目n来提高测量精度在测量成本上是不合算的。通常采用5~6个实验点建立校准曲线是合理的。
⑤鉴于校准曲线在低含量(浓度)区的测量精度较差,而空白溶液正位于测量精度较差的区域,因此,以空白溶液校正测量仪器(以空白溶液调零或作参比)是不合适的。用校准曲线拟合得到的截距值作为空白值扣除会得到更好的结果。或对空白溶液多进行几次测量,或做2~3个空白试验,取测量平均值,并作为含量(浓度)为零的实验点参与校准曲线的回归。在痕量分析中要特别注意正确进行空白试验和对空白的校正。
⑥注意基体(和共存元素)对校准曲线的影响。通常在直接测量方法中,测量溶液含有一定量的基体(和共存元素),例如,金属材料中的铁、铜、锌,耐火材料中的铝、硅、钙等,许多待测成分在有基体(和共存元素)存在时与没有基体(和共存元素)时的校准曲线不尽相同,即基体(和共存元素)对信号的测量值有一定的影响,表现为校准曲线(回归方程)的斜率b、截距a和标准差se的不同。有时,即使两条校准曲线各参数一致,但有基体(和共存元素)时其校准曲线的线性范围不一定与纯溶液校准曲线的线性范围一致,通常后者的线性范围要宽于前者。对分析人员而言,尽量希望采用简单的方法绘制校准曲线,在分析方法试验时都应该进行基体(和共存元素,及它们的量)对校准曲线影响的研究。是否可以用纯溶液的校准曲线来计算测量溶液的成分,就需比较这两条校准曲线是否有显著性差异,采用4.2.5的方法可对校准曲线的斜率和截距进行显著性检验。
当基体(和共存元素)对校准曲线有影响时,校准曲线应进行基体匹配,并控制分析样品与校准曲线的基体量一致(或尽可能一致)。例如,分析高低含量不一的多个样品,如果基体对校准曲线的影响较大,就不宜采用称取不同量的样品(或分取不同量的试液)的办法使样品的测量强度(吸光度)控制在校准曲线范围内,而应该在试料(或试料溶液)中补加相应量的基体(或其溶液),使测量溶液中基体量与校准曲线一致。
当然,对通过分离手段得到待测成分的纯溶液,一般可以用纯溶液绘制校准曲线。但是,此时要注意的另一个问题是,通过分离对待测成分的回收是否完全。当分离的回收率不尽满意,精确分析时需用分离回收率对测量结果进行校正,或在同条件下对校准曲线溶液待测成分经相同分离操作后再绘制校准曲线。
⑦校准曲线的动态范围可以很宽,但线性范围并不等于其动态范围。例4-4用铬天青S测定铝方法中,校准曲线的动态范围是0~70μg/100mL,但用于分析测试合适的线性范围仅是0~50μg/100mL。因此,确定分析方法的测量范围时,一定要使样品的测量信号与校准曲线的线性范围匹配。
⑧测量范围除与校准曲线线性范围有关外,还与样品分解、分离方法、试液的处理、基体和共存元素的影响,测量响应值的精密度等因素有关。在分析方法试验确定方法的测量范围时,应当取合适的样品在测量方法的上限和下限附近进行准确度和精度试验。如确定某方法的测量下限为0.002%,那要求有含量在0.002%附近样品测量结果的支持。有些分析方法试验时,任意取两个样品进行准确度和精度试验,而最后确定很宽的测量范围,这种做法不合适。在确定测量范围时任意将测量下限延长至0(如给出某方法的测量范围为0~2.0%),也是不对的。分析方法的检出限和测量下限是根据实际测量的精密度数据按统计方法确定的,不能任意下延。
4.2.6.2 标准加入法
当分析样品组成较复杂,难以制备与样品成分匹配的校准曲线溶液,或难以找到匹配的标准物质时,可采用标准加入法测量并计算分析结果。取数份等量的分析样品溶液,分别加入0、c1、c2、c3、c4等不同量的待测成分的标准溶液(通常加入的标准溶液是原溶液浓度的1倍、2倍、3倍、4倍),依次在分析条件下测量它们的吸光度值A0、A1、A2、A3、A4,绘制吸光度Ai与加入量ci的校准曲线(图4-6)。校准曲线不通过原点,其与纵坐标相交截距的大小相当于样品中被测成分的吸光度,将校准曲线下延至与表示浓度量的横坐标相交,则原点与相交点的距离即为样品中待测成分的量cx。由于数份测量溶液中基体(和共存元素)的量是相同的,其化学和物理干扰的影响亦是一致的,即测量时消除了基体(和共存元素)的影响,提高了测量的准确度和精度。有些分析仪器具有在线标准加入法功能,采用双通道蠕动泵,分别将试样溶液和标准溶液导入进样系统。在线加入法可节省配制系列溶液的时间,有很好的实用性。也有的采用流动注射标准加入法进行测量。
图4-6 标准加入法校准曲线
标准加入法所依据的原理是吸光度(或光谱强度)的加和性。采用标准加入法需注意几点:
①标准加入法不能补偿空白和背景对测量的影响。也就是说,只有在不存在或扣除了背景和空白的情况下,标准加入法才能得到可靠的分析结果。采用空白试验溶液作参比,一般可以补偿空白和背景对测量的影响,但是要注意基体(和共存元素)对空白和背景的影响。
②在加标后的溶液中,绘制的校准曲线必须是线性的。
③标准溶液的加入量要适中,通常加入c1、c2、c3的量是样品中待测成分估计量的1倍、2倍、3倍,而加入c4后的量不超过校准曲线的线性范围。通常在采用标准加入法之前,先对样品进行一次半定量分析,了解待测成分的大致含量,然后确定加入标准溶液的量。
④标准加入法测量的数份溶液中,基体和共存元素的绝对量是一致的,但测量成分与基体和共存元素的相对量是不同的。当干扰效应仅与其绝对量有关,则不影响标准加入法的应用。分析测试中,这种情况是大多数。但是,也有一些方法,干扰效应与其相对量有关,使绘制校准曲线的斜率发生变化,这样,校准曲线延长线与横坐标的交点发生位移,因而求得的分析结果亦不同,这种情况下不能采用标准加入法。该情况虽是少数,但也要引起分析者的注意。
4.2.6.3 校准曲线的再校正(漂移校正)
校准曲线的漂移可能由随机误差引起实验点的波动,也可能由系统误差引起实验点的偏移。如果校准曲线各实验点漂移的大小是固定的,不随成分含量而改变,表明存在固定的系统误差,而引起曲线的平移;如果各实验点的漂移随成分含量而改变,表明存在随含量而改变的相对系统误差,而使校准曲线的斜率发生变化。这样,校准曲线平移可用来校正固定的系统误差,重置斜率可用来校正相对系统误差。事实上,分析测试中校准曲线漂移中的固定系统误差和相对系统误差往往同时存在,因此要对校准曲线的漂移进行校正,需根据测试的实际情况,按漂移后实验点的测量数据计算曲线的截距a和斜率b,或将原实验点与新实验点的测量数据合并计算截距a和斜率b,重新建立校准曲线。这种对校准曲线的校正称为再校正,或漂移校正,在分析仪器的日常分析中广泛应用。
现代分析仪器有很好的稳定性,通常在仪器出厂调试或现场调试时通过大量的标准物质建立了各种类型试样(和品种)的校准曲线,并将其回归方程储存于计算机中。在分析测试时可直接调用相应的校准曲线计算分析结果。但是,仪器有再好的稳定性,即使在同一试验条件下,重复测量的响应值也不可能完全相同。仪器在不同时段的漂移是客观存在的,理想的情况是在测量试样的同时建立校准曲线。但是对大量试样的分析,或要求进行快速分析时,这样的做法是不现实的。为此,在火花发射光谱分析、X射线荧光光谱分析中定期对测量的响应值进行再校正,使测量得到的响应值校正到原校准曲线的响应值,再进行计算。
对测量信号进行再校正,需采用标准化样品。标准化样品成分含量要适当。成分分布必须非常均匀,它可以在标准物质中选取,亦可专门制备(冶炼)。一般采用两个标准化样品进行再校正,其含量值分别位于测量元素校准曲线上限和下限附近。通常称这两个标准化样品为高、低标样品。分析测量中定期用高、低标样品对仪器进行再校正(漂移校正)。
测量响应值的再校正按下列公式计算:
(4-48)
(4-49)
(4-50)
式中 I——分析元素的校正响应值;
I'——分析元素的测量响应值;
I'h——高含量标准化样品的测量响应值;
I'l——低含量标准化样品的测量响应值;
Ih——高含量标准化样品的初始响应值;
Il——低含量标准化样品的初始响应值;
α,β——漂移校正系数。
这样,通过标准化样品的再校正,用漂移校正系数α、β将分析元素的测量响应值I'校正到建立校准曲线的初始值I,从而在校准曲线上计算分析结果。
用标准化样品对测量的响应值进行漂移校正(注意,不是对校准曲线的校正),在冶金材料现场分析中广泛应用。在连续测量中,通常每隔4h或8h用标准化样品进行一次再校正,以修正α、β漂移校正系数。校正时间的间隔取决于仪器的稳定性。
在分析实践中,有时还采用控制样品来检查测量结果的准确度,或对测量结果进行校正。控制样品是标准物质的一种,它的认证值可靠。控制样品往往是针对某一特定品种或牌号的产品专门冶炼和加工的,它与分析样品有基本一致的化学成分、冶炼和加工工艺,具有一致的组织结构。因此,采用控制样品来检查和校正分析样品的测量结果,避免样品组织结构对测量的影响。
4.2.6.4 精密测量法
精密测量法又称高精度测量法、卡点法。分光光度、原子吸收、ICP-AES等分析方法中,常采用精密测量法测定样品中较高含量的成分。通常对待测样品做一次预分析,估计样品中待测成分的大致含量,再配制两个匹配的标准溶液(或取两个标准物质),其浓度(或含量)比预分析值稍高和稍低(例如高0.3%~0.5%和低0.3%~0.5%)。在确定分析条件、仪器稳定后,反复测量低浓度标准溶液、分析样品溶液和高浓度标准溶液(或两个标准物质溶液),分别计算各溶液的平均响应值,按比例关系计算分析样品溶液浓度(或含量)。ISO分析方法标准中将精密测量法应用于ICP-AES法测定钢铁及合金材料中高含量铌和钼。
4.2.6.5 内标法
在光谱分析中,常用内标法绘制校准曲线。内标法是在试样(或试样溶液)和标准物质(或标准溶液)中加入同样浓度的某一元素,利用分析元素和内标元素谱线的强度比与待测元素浓度绘制校准曲线,并进行样品分析。通过强度比建立校准曲线,可减少由于分析条件的变动而引起谱线强度波动的随机误差,提高测量的精密度。
以Ix和cx表示分析元素的强度和浓度,以IR和cR表示内标元素的强度和浓度,分析线和内标线的强度分别为:
当内标元素浓度cR固定时,ax、aR和cR均为定值,则强度比:
(4-51)
即分析元素与内标元素的光谱强度比与分析元素的量成正比,此为内标法的定量分析关系式。
所选择的内标元素应不干扰和影响分析元素的光谱强度(或吸光度)。同样,分析元素亦不影响内标元素的光谱强度(或吸光度)。内标元素的作用,如何选择内标元素、内标线及其浓度等问题可参阅相关专著。
火花源发射光谱、X射线荧光光谱和质谱分析方法中广泛采用内标分析法。在ICP光谱分析法中,由于光源稳定性较好,基体效应较小,一般情况下不采用内标法,但对基体效应较大的样品分析,内标法有助于改善测量的精度和准确度。在双通道原子吸收光谱仪上也可采用内标法进行分析。
4.2.6.6 单点校准
分析测试,特别是在快速分析中,经常采用一个标准物质(或标准溶液)校准后测量待测样品,根据其测量强度(吸光度)比计算分析结果。单点校准法是校准曲线法的一个特例。单点校准的前提必须是其线性回归方程的截距为零(或接近零),在测量范围内有良好的线性关系。单点校准的测量误差可能大于校准曲线法,因此,在采用单点校准法之前必须对方法的测量条件和线性关系有足够的了解。为减少测量误差,选择与样品组成、成分含量接近的标准物质(或标准溶液)进行校准,而不宜用低含量标准物质校准测量高含量样品。红外吸收分析法中用同牌号的碳素钢标准物质校准并测量样品中的碳、硫含量是单点校准的典型实例。
4.2.6.7 加标回收试验
加标回收是通过加标量的回收率来推论测量值是否可靠,它是检查分析测试(分析方法)准确度的一种手段。加标试验的加标量通常控制与被测成分量相近。需注意的是加标回收不能检查测试(方法)中存在的固定系统误差。在分析方法试验研究中仅以加标回收率来论证方法的准确度是不全面的。分析方法测量结果的准确度检验以标准物质测量结果检验,与另一独立分析方法测量结果比对,或进行实验室间测量结果比对为首选。关于加标回收试验的论述详见第8章8.3.6。
4.2.6.8 绘制校准曲线的几个具体问题
①注意自变量和因变量之间的关系。4.2.2中已提及,分析测试中浓度(含量、质量等)c是自变量,信号值y(强度I、吸光度A等)是因变量。校准曲线的回归方程是y=a+bc,从样品的信号值y在校准曲线上计算待测样品浓度c:
如果相反,将y当作自变量,x当作因变量,则校准曲线的回归方程为,c=a+by。两个不同的回归方程计算结果是不一样的。
在绘制校准曲线时不能混淆自变量与因变量间的关系。当采用计算器或软件回归时,注意自变量c和因变量y的输入区域。例如,用Excel表格回归计算时,应将自变量数值c填入x输入区域,因变量数值y填入y输入区域,而不能相反。
②异常实验点的检查和处理。建立校准曲线时,要检查是否存在与拟合的回归直线偏离很远的实验点,即残差绝对值=很大的实验点。当存在远离校准曲线的实验点,而在技术上又找不到它偏离的原 因时,应对这样的实验点进行统计检验,以确认它在统计上是否异常。如果异常实验点参与回归,将严重影响所建立回归直线的精度。一组测量数据中是否存在异常实验点,可用标准化残差来检验。
残差,表示测量值yi偏离回归方程预测值的程度。残差di的标准差可用下式表示:
(4-52)
则标准化残差为:
(4-53)
标准化残差的绝对值与相应临界值(表4-10)比较,若其绝对值大于临界值,则表示该测量值的标准化残差是一个小概率事件,可将其作为异常值剔除。
表4-10 标准化残差临界值表
表4-11列出了对不同浓度xi用吸光光度法的测量值yi,求得线性回归方程为:
据表列数据计算各实验点相应的回归值、残差、标准化残差,一并列于表4-11。检验结果表明,第二点的标准化残差的绝对值大于0.05显著性水平的临界值,可认为是一个小概率事件,测量值为异常值,可剔除。
表4-11 不同浓度溶液的观测值、残差及标准化残差
需要指出的是,异常实验点常常能提供其他实验点所不能提供的一些信息,因此,是否将异常实验点剔除需慎重对待,特别是在试验研究工作中,必要的话可进行重复试验。
③校准曲线线性关系好,表示测量的响应值与浓度之间的相关性好,但并不表示校准曲线一定会通过原点。不少情况下,由于空白、基体、共存离子和试验误差的影响,校准曲线的截距未必为零,特别是对痕量分析的校准曲线。不分场合强制使标准曲线过原点是不合理的。有时,零浓度的测量值a0并不等于校准曲线的截距a。截距a是多点测量的统计值,其可靠性优于单点测量值a0。
④校准曲线反映响应值和浓度的相关关系,任何校准曲线都应有一个置信区间,只要实验点落在置信区间内,就可以认为整个实验处于控制状态,尽管实验点不一定落在校准曲线上,但仍可以认为校准曲线未发生显著性变化。
⑤除了对所建立的校准曲线进行显著性检验以外,还应检查实验点围绕校准曲线的分布,以确认线性回归模型是否适合用来拟合这一组实验点,或确定回归曲线合适的线性范围,有时或许有更合适的回归模型进行实验点的拟合,如例4-4所示的情况。