4.2 一元线性回归_分析测试统计方法和质量控制-QQ阅读男生中文武侠网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

4.2　一元线性回归

4.2.1　作图法求两变量间的关系

在分析测试中，几乎每个分析结果都是通过校准曲线计算而得的。无机材料中的锰量通常用高锰酸盐光度法测定，在分光光度计525nm测量高锰酸盐的吸光度，其吸光度与锰的浓度的关系列于表4-1。

表4-1　吸光度与锰量的关系

将锰量和相应的吸光度分别标在坐标的x轴和y轴上，各数据点之间近于一条直线。在坐标纸上可画出一条近似地反映吸光度与锰量间关系的直线（图4-1）。根据测量的吸光度，可以在此直线上查出相应的锰量。在缺少计算器和计算机的年代，多数的分析测试都是在坐标纸上画线并查取和计算待测成分的含量。

图4-1　锰量与其吸光度关系的对应图

在测量点较少，线性关系较好的情况下，不同人凭直觉画出的回归直线的差异不大。但当测量点较多且较分散时，不同人就可能画出不同的回归直线，即得出不同a、b系数的线性方程，这样查取和计算出待测成分的含量亦有所不同。究竟哪一条回归直线最能反映锰量与吸光度之间的关系？在数理统计中，采用最小二乘法原理可很好解决这一问题。

4.2.2　一元线性回归方程的建立

4.2.2.1　无重复测量回归方程

由图4-1可知，相应于每个试验点（锰量），测量一次吸光度，吸光度A与锰量间有良好的线性关系，但是测量点并不都落在直线上，或多或少与直线存在一定的距离。根据朗伯-比尔定律，测量物质的浓度与吸光度有严格的线性关系。光度分析测量中，测量物质的浓度c是可控制的变量，称为自变量，而测量的吸光度A是不可控变量，称为因变量，因变量是一个随机变量。通常，测量的吸光度除了与浓度遵循朗伯-比尔定律外，还受其他一些因素和测量误差的影响，测量的吸光度并不都落在直线上。

因此，对一般y随x变化的线性关系可认为由两部分组成，一是由自变量x的变化引起因变量y线性变化的部分，记为a+bx，a、b称为回归参数，二是由其他随机因素引起的，记为ε。因此，可认为y与x之间有如下关系

　　（4-1）

该关系式由三个部分组成：

①常量a，回归线在纵坐标上的截距，它是y的本底水平，即x对y没有任何作用时，y的数量表现。

②回归系数b，它表示因变量y的取值改变中，由于y与自变量x线性相关关系所引起的变化率，即指当自变量x改变一个单位时，因变量y改变量的平均估计值。b是可由x直接估计的部分。

③试验误差ε ，它表示因变量y的取值由未进入该模型或未知但可能与y有关的随机和非随机因素共同引起的不能由x直接估计的部分。在回归方程中，第i个观测值的误差ε_i等于因变量的实测值y_i与其估计值（回归值）之差，即

回归分析的目的是找出a、b的估计，并除去ε，建立线性方程=a+bx。

设来自（x，y）的样本为（x_i，y_i），i=1，2，…，n，则有：

ε_i表示第i次测量的观测值y_i与回归方程估计值之差，称为第i次测量的变差，又称残差。

用Q_e表示变差ε_i的平方和，它表征各观测值y_i偏离回归方程估计值的程度，则

　　（4-2）

Q_e随不同的a、b值而变化。为使所求的回归方程最能反映各试验点的真实分布，使试验点与回归直线拟合程度最好，应使实际测量值y_i与方程的回归值之差的平方和达到最小值。最小二乘法就是求回归参数的估计值a和b，使Q_e达到最小，或者说求使Q_e达到最小时的a、b值。

按最小二乘法，回归参数a、b值应满足：

　　（4-3）

满足Q_e最小的条件是：

得

　　（4-4）

求解方程组：

整理方程组可得：

令

则

　　（4-5）

　　（4-6）

由此求得一元线性回归方程：

　　（4-7）

由于回归方程有两个限制条件，其自由度ν=n-2。

回归方程变动性（各试验点对回归线的离散度）的标准差：

　　（4-8）

式（4-6）表明，回归直线一定通过（，）点，该特性对作回归直线是十分重要的。

由式（4-7）求得的是因变量y对自变量x的回归方程。对一组x和y的测量数据，由于y对x的回归方程与x对y的回归方程是基于不同的变差平方和求得的，如果混淆因变量和自变量，求得的两个回归方程是不同的，在坐标上画出的回归线也不是同一条线。

在分析测试中，通常是通过物质浓度x的变化，测量相应的光谱强度、吸光度、质谱强度、色谱峰高度或面积等响应值y来确定回归方程（或绘制校准曲线），物质浓度x是分析者定量加入的标准溶液或采用的标准物质，其量是可以确定的和可控制的，是一个自变量，而测量的响应值y受自变量x、测量误差及其他影响是不可控的，是一个因变量。因此，建立的应该是因变量y对自变量x的回归方程，并由测量的响应值计算样本中待测物质的浓度。

【例4-1】　按表4-1数据，计算锰的吸光度A对其锰量c的回归方程。

解　按题意，锰量c为自变量，吸光度A为因变量，得计算得，，于是：

得回归方程：

回归方程标准差s_e=0.0140。

用该回归方程反估锰含量c，方程为：

而如果在数学上将吸光度A当作自变量，锰含量c作因变量，计算的回归方程为：

两个公式计算的浓度c是不同的，用后一个公式计算浓度c是不合适的。

当然，在有些相关关系中，x和y都可以是随机变量（属于双变量正态分布），例如，某班级男生的身高（x）和体重（y）有一定的相关关系，x和y都是随机变量，则可以计算两个回归方程

　　（4-9）

　　（4-10）

式（4-9）是因变量体重（y）对自变量身高（x）的回归方程，式（4-10）是因变量身高（x）对自变量体重（y）的回归方程。

线性回归方程是一种统计关系，反映因变量y随自变量x变化的平均情况，变量间在一定取值范围内具有线性关系，但并不意味着它们之间在任何取值范围内都具有线性关系。从统计学考虑，回归方程并不能将因变量和自变量的关系随意外延。

4.2.2.2　有重复测量回归方程

在分析测试（特别是仪器分析）中，有时对各试验点进行多次测量，有等重复测量，有不等重复测量，不同情况得到的回归方程是不一样的。

（1）等重复测量　对各试验点（x_i，i=1，2，…，n）进行等重复测量m次，得m个测量值（y_ij，j=1，2，…，m）。在计算回归方程时，则应对nm个测量数据（x_ij，y_ij）进行回归计算。例如，火花发射光谱法测定六个合金结构钢标准物质中的钼，每个标准物质测量3次，测量结果见表4-2，将每次测量的光谱强度值对钼含量回归，nm=18，得回归方程及其标准差、相关系数和自由度分别为：

表4-2　钼含量和光谱强度值

如果以各标准物质光谱强度平均值对钼含量进行回归，n=6，则回归方程及其标准差、相关系数和自由度分别为：

两者回归方程的截距和斜率相同，但自由度ν不同，计算的标准差和相关系数略有不同。分析测试中应按实际测量次数的响应值与测量点浓度进行回归，在随后计算回归方程置信区间，或计算待测物质浓度的测量不确定度时，不同的标准差和自由度其计算结果是不同的。

（2）不等重复测量　当各测量点的测量次数（m_i）不同时，不同的回归方式，得到的回归方程是不同的。表4-3给出了用钼蓝光度法测量硅含量时每个测量点不同测量次数的吸光度，将每次测得的吸光度A对浓度c回归，∑m_i=20，则回归方程及其标准差、相关系数和自由度分别为：

表4-3　硅含量和吸光度值

如果以吸光度平均值对浓度c进行回归，n=5，则：

两方程表明，当各测量点测量次数不同时，两方程的截距和斜率不同，其标准差和相关系数也不同。各测量点响应值通常是非等精度的，将各测量点响应值进行回归，则得到的回归方程反映测量的实际精度和状态，也就是回归方程给予测量次数多的测量点更多的权（加权回归模式）。而如果取响应值的平均值进行回归，就等于将其各测量点的精度等同处理，并不是真实反映测量精度分布的实际情况。

4.2.3　一元线性回归方程的有效性检验

对任何一组观测数据（x_i，y_i，i=1，2，…，n），不论x与y是否存在线性关系，都可以用最小二乘法求出线性回归方程。但是当x与y没有线性关系，或线性关系不显著时，形式上求出的回归方程是没有实际意义的。因此，对于给定的观测数据，有必要以统计检验的方法判断y与x之间是否存在显著的线性关系。

4.2.3.1　回归方程的方差分析和F检验

y受x及其他因素和实验误差的影响，回归系数b和截距a在一定范围内有所波动，各实验点的（x_i，y_i）不一定都落在回归线上。各实验点偏离其平均值的程度，可用它们总的变差平方和Q_T来表征。

式中

因此，

　　（4-11）

式中，，称为总变差平方和，ν_T=n-1；

，称为回归变差平方和，ν_R=1；

，称为剩余变差平方和，ν_e=n-2。

由上式可知，总变差平方和可分解为回归变差平方和与剩余变差平方和（见图4-2）。总变差平方和Q_T表示取值y₁、y₂、…、y_n与它们的平均值的变差平方和，即取值的分散程度；Q_R表示y随x的变化，它是与它们的平均值的变差平方和，表示的分散程度。在回归方程确定后，因变量的分散性是由自变量x₁、x₂、…、x_n的分散性引起的；试验剩余变差平方和Q_e描述了非线性变动性的大小，包括试验误差和（或）x对y非线性影响及其他因素对y数据变动的影响。当不存在非线性及其他影响因素时，剩余变差平方和即为试验误差平方和。

图4-2　变差平方和的分解

因此，由于Q_T=Q_R+Q_e，当Q_T给定后，Q_R愈大，Q_e愈小，则x对y的线性影响愈显著。如果，则所有试验点都落在回归直线上；而当时，，则y与x间不存在任何依赖关系，回归线是一条等高度的与x轴平行的直线，b=0（即等于截距a）。由此， Q_R与Q_e的大小直接反映因变量y与自变量x之间的相关程度。

以下采用方差分析来进一步讨论和检验y与x线性关系的相关性。

检验假设H₀：b=0。

计算统计量：

　　（4-12）

式中，ν_R是回归变差平方和的自由度，ν_R=1；ν_e是误差变差平方和，ν_e=n-2。当F值大于相应自由度下的临界值，拒绝接受H₀，表明在0.05显著性水平下线性回归效果显著，即y与x间存在显著的线性相关关系，建立的回归方程（及相应的回归线）是有意义的；而当F小于或等于，接受H₀，表明线性回归效果不显著，y与x间不存在显著的线性相关关系，建立的回归方程是没有意义的。方差分析统计见表4-4。

表4-4　方差分析统计表

【例4-2】　对表4-1的测量数据进行方差分析，检验回归方程的显著性。

解　例4-1已计算得锰吸光度A对其含量c的回归方程为：

由回归方程计算各变量x_i的，计算各y_i的平均值，得

计算总平方和Q_T、回归平方和Q_R和误差平方和Q_e：

计算方差检验统计量：

查F分布表，F_{0.05（1，6）}=5.99，F>F_{0.05（1，6）}，说明相对于试验误差，线性回归效果显著，回归方程是有意义的。

4.2.3.2　相关系数（r）检验

对回归方程的显著性检验，更常用的是相关系数检验法。

由于

将此代入式（4-11），得：

令相关系数为r，r表示y与x线性关系密切程度的量，其取值范围为≤1，

　　（4-13）

则：

4.2.3.3　重复试验的方差分析和失拟变差平方和

以上讨论中：

当剩余变差误差平方和Q_e≈0，则Q_T≈Q_R，r≈1，表示各试验点基本上都在回归直线上，这是分析测试中绘制校准曲线所希望的情况。但是，在分析测试实践中，虽然试验误差可以控制在很小范围内（或趋近于零），由于事物本身自变量和因变量受其他因素的影响，其关系并不是完全呈线性状态。有时虽然可以用线性回归计算其回归方程，但回归的线性方程与事物的本质仍然有一定的差异。

如分光光度法、原子吸收法分析中测量的吸光度与其元素含量遵循比尔定律，但当测量元素含量超出一定范围时，其吸光度并不随其含量呈线性增加，表现为校准曲线开始下弯。这时曲线下弯并不是试验误差造成的，而可能是光度计的单色性、检测器响应的线性、离子与显色剂的化学反应率、原子的自吸收等其他因素引起的。此时如果用相关系数r检验，虽然校准曲线可能仍有较好的显著性，但在其校准曲线上计算下弯部分测量结果可能引入较大的误差。也就是说，虽然自变量和因变量有较宽的动态范围，但真正适合分析测试的校准曲线可能只是其中的一段的范围。分析工作者应进一步分析曲线下弯的原因，并采取适当的措施消除、改善或避免。

从以上讨论可知，在试验研究和分析测试中，除试验误差外，还存在一些其他因素，使因变量和自变量间不完全呈线性关系。我们将这些影响回归曲线拟合的其他因素，称为失拟因素。很明显，剩余变差平方和Q_e不仅包括试验误差，还包括失拟因素引起的变差平方和，将其记为Q_d。

为将失拟变差从剩余变差平方和中分解出来，需进行重复试验。通过重复试验数据计算试验误差的变差平方和Q_e，并将总的变差平方和Q_T分解为回归变差平方和Q_R、失拟变差平方和Q_d、试验误差变差平方和Q_e三部分。当无重复试验时，失拟因素的影响混杂在试验误差平方和中。

当有重复试验时，按式（4-6）、式（4-7）计算回归方程参数a、b，建立有重复测定的回归方程。回归方程总变差平方和Q_T为：

　　（4-19）

其中

m是试验点重复测定的次数，各变差平方和相应的自由度分别为：

　　（4-20）

如果失拟情况不严重，可以将失拟变差平方和Q_d合并于试验误差平方和Q_e中，计算合并变差平方和Q'_e=Q_d+Q_e和合并自由度ν'_e=ν_d+ν_e，此F检验的统计量：

　　（4-21）

当F大于，表明回归性是显著的，回归方程拟合得很好。

如果失拟情况严重，即除试验误差因素以外还存在其他非线性影响，而且失拟变差平方和Q_d远大于试验误差变差平方和Q_e，即剩余平方和基本上由失拟变差平方和组成。在统计上可计算失拟检验统计量：

　　（4-22）

当F大于时，表示失拟情况是显著的。影响回归方程拟合不好的原因，可能是x对y的非线性影响，或x之外的其他因素的影响，或者两者影响兼有之。当时，失拟情况不显著，可不必考虑其影响。

由以上分析可知，为检查是否存在失拟因素，需进行重复试验，在统计时分别计算失拟变差平方和和试验误差平方和，再进行方差分析和F检验。

【例4-4】　用铬天青S光度法显色测定铝，以铝的褪色液作参比，测定显色溶液的吸光度。显色液中的铝量与测得的吸光度如表4-6所示。试根据测量数据进行方差分析，并确定合适的回归方程。

表4-6　铝量与吸光度关系

解　根据测量数据，，，计算回归方程参数b和a，

建立的回归方程为：

4.2.4　回归方程的精度与置信区间

4.2.4.1　回归方程的精密度

自变量x和因变量y之间只是相关关系，各实验点的值并不都落在回归直线上。对同一样本，回归方程的精密度是指实验点围绕回归线的离散程度。这种离散程度是由试验误差和x对y的非线性影响引起的。其离散性的大小可用残差平方和（或称剩余变差平方和）Q_e与称剩余方差表示，自由度ν=n-2，

其剩余标准差s_e，

　　（4-23）

当每个试验点重复测量m次时，

　　（4-24）

式（4-23）和式（4-24）表示所有随机因素（包括试验误差和x对y的非线性影响）对y测量值影响的标准差大小。

由于x与y只是相关关系，即使除x之外的其他条件保持不变，由不同样本的测量值得到的回归方程的回归系数b和常数项a也是有波动的。b和a的变动愈小，表示回归方程的稳定性愈好。b和a值变动性的大小可分别用它们的标准差s_b和s_a来度量。

4.2.4.2　回归系数b（斜率）的变动性及置信区间

据式（4-5）

由于，

于是，

当y的随机误差与浓度无关时，==…==，则：

　　（4-25）

回归系数b的置信区间为：

式中，t_α_，_ν为显著性水平α和自由度ν=n-2时的置信系数，可由t分布表查得。

4.2.4.3　常数项a（截距）的变动性及置信区间

据式（4-7），

于是，

经变换得，

　　（4-26）

常数项a的置信区间为：

4.2.4.4　对取值x₀的拟合值y₀的变动性及置信区间

当由样本值建立y对x的回归方程时，y值不仅依赖于x的取值，也受回归曲线随机误差的影响，即a、b值稳定性的影响。这样，用来自同一总体的不同样本建立回归方程的a值与b值是不同的，它们会在一定范围内波动。因此，由于a、b值的变动性，相应于某一x的取值x=x₀的y₀也产生波动，其波动的大小反映y₀的精度。

根据回归方程y=a+bx，由取值x₀求y₀的标准差，不仅要考虑回归方程的剩余标准差s_e，a和b变动性标准差s_a和s_b，同时由于参数a和b是由同一组测量结果计算得到的，两者之间存在一定的相关性，还要考虑a和b之间的协方差，协方差的大小与a、b间的相关系数r（a，b）有关。

由于：

对等式两边求方差，并考虑a和b之间的协方差，得：

由于

　　（4-27）

由此，r（a，b）是一个负值，因而它们的协方差也是一个负值。

对一次确定的抽样或任何一个给定的x值，设x=x₀，通过回归方程得到拟合值y₀，则可计算y₀的标准差。

x₀和y₀满足以下关系：

对等式两边求方差，得：

　　（4-28）

整理得：

　　（4-29）

　　（4-30）

对一次确定的抽样和任一个取值x=x₀，计算得的测量值y₀的变动性不仅要考虑随机抽样对a、b值本身变动性的影响，还要考虑由于实验条件的变动性引起随机误差s_e的影响。这两种影响是互相独立的，根据误差传递原理，y₀单次测量的方差为：

其标准差为：

　　（4-31）

y₀相应的置信区间为：

　　（4-32）

式中，t_α_，_ν为自由度ν=n-2、显著性水平α时的t分布值，注意此t值是双侧检验临界值，这是因为置信区间位于回归直线y₀的上下两侧。

当对y₀进行p次重复测量，则y₀的标准差：

　　（4-33）

相应y₀的置信区间为：

　　（4-34）

由此，回归直线y的置信区间为：

　　（4-35）

根据s_y画出回归方程的置信区间，见图4-5。

图4-5　回归方程的置信区间

可以预测，在一系列的测量中，在这带形区间内大约包括（1-α）的测量结果。

4.2.4.5　对测量值x的预测

在分析测试中通常使用回归方程y=a+bx进行反估，由试验测得的y值，计算测量值x：

x值的精密度由s_e及a、b的变动性和它们的相关性决定。由此，测量值x的标准差为：

　　（4-36）

或

　　（4-37）

测量值y的标准差s_y，或以此计算x值的标准差s_x，不仅决定于剩余标准差s_e，还与以下因素有关：用于建立回归方程的试验点数目n；自变量x的取值范围；测量的重复次数p；测量值y（或x）与试验点平均值（或）的接近程度。

因此，为提高测量精度，在试验方法的设计上，应增加试验点数目n，增加样品重复测量次数p，在设计校准曲线时尽可能使测量值x接近于试验点x_i的平均值，当x的取值x=x₀时，s_x最小。

在最小二乘法计算回归方程的不确定度评定中，采用式（4-36）或式（4-37）评定回归值的标准不确定度分量。

需要指出的是，回归方程一般只适用于原来的试验范围，应用时不能随意将确定的回归直线外延。回归线的延长线上自变量和因变量的关系未必遵循该回归方程的表达式。例如，例4-4中，铝浓度大于50μg/100mL时，其吸光度不能用铝浓度0～50μg/100mL的回归方程计算，测量数据表明，铝浓度0～50μg/100mL与0～70μg/100mL回归方程有显著性差异。如果需要扩大应用范围，务必要有充分的理论依据，或有进一步的试验数据为依据。这是分析实践中需注意和处理好的问题。

【例4-5】　在例4-4中，采用铝浓度0～50μg/100mL范围的校准曲线，分别对某试样进行三组不同的重复测定。为计算方便，根据试样量、显色试液分取比，铝浓度0～50μg/100mL范围相当于试样铝含量0～0.50%。三组测量所得吸光度分别为：

（1）样品重复测量两次，吸光度0.406、0.412；

（2）样品重复测量五次，吸光度0.414、0.404、0.408、0.410、0.406；

（3）样品重复测量十次，吸光度0.408、0.406、0.414、0.410、0.403、0.415、0.410、0.408、0.412、0.404。

试计算不同测量情况下该试样铝含量测量值的置信范围。

解　根据例4-4，铝量x_i与吸光度A的关系如表4-8所示，试验点n=12。

表4-8　铝量与测量吸光度的关系

从测量数据计算得校准曲线回归方程为：

计算回归方程的标准差：

各实验点的x_i平均值。

（1）根据测量的吸光度，代入回归方程，铝含量结果为0.2650%、0.2694%，平均值，回归方程的变动性引起测量值的标准差：

因此，在0.05显著性水平，，测量值的置信范围为0.267±2.23×0.0044≈（0.267±0.010）%。

（2）根据测量的吸光度，代入回归方程，铝含量结果为0.2724%、0.2650%、0.2664%、0.2679%、0.2650%，平均值%，回归方程的变动性引起测量值的标准差：

在0.05显著性水平，测量值的置信范围为0.267±2.23×0.0031≈（0.267±0.007）%。

（3）根据测量的吸光度，代入回归方程，铝含量结果为0.2664%、0.2635%、0.2709%、0.2679%、0.2620%、0.2712%、0.2779%、0.2664%、0.2694%、0.2635%，平均值=0.2670%，回归方程的变动性引起测量值的标准差：

在0.05显著性水平，测量值的置信范围为0.267%±2.23×0.0025%=（0.267±0.006）%。

计算结果表明，随着重复测量次数增加，由回归方程引起的变动性和测量重复性的标准差随之减少，测量值的置信范围亦随之变小。但是，随着测量次数的增加，置信范围变小的速度也随之减小。测量次数n=2、5和10时，测量值的置信范围分别是±0.010、±0.007和±0.006。在分析测试中，过多的测量次数并不与获得的可靠性成正比，在获得结果可靠性的同时也要兼顾测量的成本。

4.2.5　两条回归直线的比较

在分析实践中，经常会遇到这样一个问题：同一台仪器在不同时间，或不同人员用相同方法对同一测量对象测量得到的两条回归直线不一定都相同，包括两条回归直线的标准差不同，或斜率不同，或截距不同，或斜率和截距都不同。试问这两条回归直线是否有显著性差异，两条回归直线是否可合并后计算测量结果。要回答这些问题，就要对这两条回归直线进行比较，在统计上检验回归直线的方差、斜率b和截距a是否发生显著性变化。如果这两条回归直线之间无显著性差异，即将其合并为一条回归直线来表示其x和y间的关系。

设有两条回归直线（回归方程）：

在统计上，可按以下步骤检验两条回归直线是否一致。

（1）用方差检验检查两回归直线的方差是否有显著性差异。计算统计量：

　　（4-38）

通常把大的方差作为，小的方差作为（设置为分母），n₁、n₂分别为两条回归线的实验点数目。

当与无显著性差异时，计算它们的合并方差：

　　（4-39）

（2）检验回归系数b₁与b₂间是否存在显著性差异。计算统计量：

　　（4-40）

式中，为b₁与b₂之差的标准差，当与无显著性差异时，

　　（4-41）

自由度ν=n₁+n₂-4。

若统计量t小于相应的统计量t_α_，_ν，表明斜率b₁和b₂是一致的，可用加权法求出合并回归直线的斜率：

　　（4-42）

当x₁_i和x₂_i取值相同时，可简化为：

　　（4-43）

b₁和b₂的一致性，表明两回归直线是平行的或基本平行。两回归直线是平行但未必是重合，为证明两回归直线是否重合，还需检验a₁和a₂的一致性。

（3）检验截距a₁和a₂间是否存在显著性差异。计算统计量：

　　（4-44）

式中，是a₁与a₂之差的标准差。当与无显著性差异时，

　　（4-45）

自由度ν=n₁+n₂-4。

当统计量t小于给定显著性水平α和相应自由度ν的临界值时，认为a₁和a₂无显著性差异，可用加权法计算合并的值，即两条回归线的共同截距：

　　（4-46）

当n₁=n₂=n时：

这样，如果两回归直线的s²、b、a都没有显著性差异，则可将其合并为一个新的回归方程：

　　（4-47）

需要指出的是，两回归直线检验按s²、b、a的顺序进行，后一步骤的检验将用到前一步骤的结果。

如果两条回归直线检验的s²、b、a有显著性差异，则需考虑修正、重建回归方程，或重新进行试验。

在分析测试中，可以采用更简便的方法来判断两条回归直线的一致性。将检验的两条回归直线中的任一条作基准，按式（4-32）计算该回归直线的置信区间，如果另一回归直线的实验点落在基准回归直线的置信区间内，则认为两条回归直线是一致的，这时可将所有实验点拟合成一条共同的回归直线。

【例4-6】　用ICP-AES法测定一批低合金钢中镍含量，并在样品测量前和测量后分别作校准曲线，校准曲线测量数据如表4-9所示。试问两条校准曲线在统计上是否一致，是否可用合并的校准曲线（回归方程）计算分析结果。

表4-9　镍含量和光谱强度参数

解　由式（4-5）和式（4-14）分别计算得测量前和测量后光谱强度对镍含量的回归方程和相关系数：

相关系数均大于其临界值（r_0.05，3=0.878），所确定的回归直线都是有意义的。

按式（4-23）计算得两回归方程的I的标准差分别为s₁=1.577和s₂=2.020，方差检验统计量：

查F分布表，F_{0.05（3，3）}=9.28，F<F_{0.05（3，3）}，表明两回归方程的方差无显著性差异。按式（4-39）求出合并方差=3.28，=1.81，按式（4-41）计算两回归系数b₁和b₂之差的标差：

两回归方程截距a₁和a₂之差的标准差按式（4-45）计算：

计算t检验统计量：

查t分布表，t_0.05，6=2.45，t_b和t_a均小于t_0.05，6，统计数据表明两回归方程的回归系数和截距均无显著性差异。

于是，求出回归系数和截距的加权平均值：

由此，两回归方程可拟合成一个新的回归方程和一条回归直线：

并通过合并的回归方程（校准曲线）计算分析结果。

从回归得到的方程可看出，由于测量前的回归方程的标准差小于测量后回归方程的标准差，拟合方程的回归系数b更靠近测量前回归方程的回归系数b₁，即标准差小的回归方程所占的权重大。

本例亦可用第8章8.3.4.1多水平测量结果的统计方法进行比较。由于自变量x_i取值相同，以测量后对测量前进行线性回归，计算得回归方程：I₂=-0.246+1.0027I₁，截距a的标准差s_a=0.791，斜率b的标准差s_b=0.00764，然后将a与0比较、b与1比较，进行t检验。统计结果亦表明两校准曲线无显著性差异。

4.2.6　一元线性回归方程在分析测试中的应用

在缺少计算器和计算机的年代，多采用在坐标纸上绘制吸光度与物质浓度关系的校准曲线的方法，再根据测量的吸光度在校准曲线上查取待测物质的浓度（或分析结果）。这种凭分析人员目视的直觉绘制的校准曲线，当试验点离散性较大时，不同人可能绘制出不同的校准曲线，这样查出的分析结果就可能引入较大的人为误差。如果用人工计算回归系数b、截距a和相关系数r，不仅计算工作量大，而且容易出错。当今的分析仪器基本上都带有回归功能的软件，计算和显示回归方程的各项参数，并直接给出待测物质的浓度（或分析结果）。使用函数计算器，或在计算机上采用Excel功能、专用统计软件，或自编程序，可十分方便地绘制校准曲线和计算分析结果。采用计算机处理测量数据时要注意比较和确定校准曲线合适的线性范围，通过计算和比较，有时人为干预是必要的。例4-4和图4-4比较了两条校准曲线，数据表明，采用铝含量0～50μg/100mL的校准曲线对测量结果有更好的精密度和准确度。

4.2.6.1　校准曲线法

现代分析仪器采用的都是相对测量方法，根据校准曲线进行定量分析。大多数分析测试，如分子吸收、原子吸收、发射光谱、原子荧光、离子选择电极等分析方法的检测信号与待测成分的浓度的关系可用一元线性回归方程表示，或经数学变换后以一元线性回归方程表示，根据待测物质的测量信号用校准曲线定量计算物质的浓度。

采用校准曲线法计算分析结果要注意以下问题：

①计算校准曲线回归方程时不要混淆自变量和因变量的关系。

②图4-5回归直线的置信区间和式（4-34）表明，待测成分浓度接近校准曲线浓度平均值时其测量精度最高。校准曲线系列标准溶液（标准物质）的浓度与待测成分的浓度要正确匹配，尽量使待测成分浓度控制在校准曲线中间部位，一般不能在校准曲线的延长线上查取或计算分析结果。在特殊情况下，除非有足够的试验证据表明校准曲线有较宽的线性范围，才可在校准曲线最高（或最低）试验点接近的测量点上计算分析结果。因此，任何测量都不希望绘制的校准曲线使待测成分浓度位于其曲线的上限或下限附近。为提高测量的精度和准确度，不宜同时在一条校准曲线上测量并计算高含量和低含量的测量成分。高含量和低含量成分的测定应分别绘制校准曲线，虽然有些仪器和分析方法校准曲线的线性范围很宽（达3～4个数量级），但不宜用一条校准曲线同时测量浓度相差3～4个数量级的待测成分。

③增加样品重复测量次数p，和增加校准曲线实验点测量次数n，都可以减小测量的随机误差，提高测量精度。而增加测量次数p比增加实验点测量次数n的效果更明显。

④对绘制校准曲线，在测量次数相同的情况下，增加实验点数目（减少每一实验点重复测量次数）比增加实验点重复测量次数（减少实验点数目）更能有效提高校准曲线的精度。但随着实验点数目的增加，校准曲线精度的提高速率逐渐减慢，当n>6时，再靠增加实验点数目n来提高测量精度在测量成本上是不合算的。通常采用5～6个实验点建立校准曲线是合理的。

⑤鉴于校准曲线在低含量（浓度）区的测量精度较差，而空白溶液正位于测量精度较差的区域，因此，以空白溶液校正测量仪器（以空白溶液调零或作参比）是不合适的。用校准曲线拟合得到的截距值作为空白值扣除会得到更好的结果。或对空白溶液多进行几次测量，或做2～3个空白试验，取测量平均值，并作为含量（浓度）为零的实验点参与校准曲线的回归。在痕量分析中要特别注意正确进行空白试验和对空白的校正。

⑥注意基体（和共存元素）对校准曲线的影响。通常在直接测量方法中，测量溶液含有一定量的基体（和共存元素），例如，金属材料中的铁、铜、锌，耐火材料中的铝、硅、钙等，许多待测成分在有基体（和共存元素）存在时与没有基体（和共存元素）时的校准曲线不尽相同，即基体（和共存元素）对信号的测量值有一定的影响，表现为校准曲线（回归方程）的斜率b、截距a和标准差s_e的不同。有时，即使两条校准曲线各参数一致，但有基体（和共存元素）时其校准曲线的线性范围不一定与纯溶液校准曲线的线性范围一致，通常后者的线性范围要宽于前者。对分析人员而言，尽量希望采用简单的方法绘制校准曲线，在分析方法试验时都应该进行基体（和共存元素，及它们的量）对校准曲线影响的研究。是否可以用纯溶液的校准曲线来计算测量溶液的成分，就需比较这两条校准曲线是否有显著性差异，采用4.2.5的方法可对校准曲线的斜率和截距进行显著性检验。

当基体（和共存元素）对校准曲线有影响时，校准曲线应进行基体匹配，并控制分析样品与校准曲线的基体量一致（或尽可能一致）。例如，分析高低含量不一的多个样品，如果基体对校准曲线的影响较大，就不宜采用称取不同量的样品（或分取不同量的试液）的办法使样品的测量强度（吸光度）控制在校准曲线范围内，而应该在试料（或试料溶液）中补加相应量的基体（或其溶液），使测量溶液中基体量与校准曲线一致。

当然，对通过分离手段得到待测成分的纯溶液，一般可以用纯溶液绘制校准曲线。但是，此时要注意的另一个问题是，通过分离对待测成分的回收是否完全。当分离的回收率不尽满意，精确分析时需用分离回收率对测量结果进行校正，或在同条件下对校准曲线溶液待测成分经相同分离操作后再绘制校准曲线。

⑦校准曲线的动态范围可以很宽，但线性范围并不等于其动态范围。例4-4用铬天青S测定铝方法中，校准曲线的动态范围是0～70μg/100mL，但用于分析测试合适的线性范围仅是0～50μg/100mL。因此，确定分析方法的测量范围时，一定要使样品的测量信号与校准曲线的线性范围匹配。

⑧测量范围除与校准曲线线性范围有关外，还与样品分解、分离方法、试液的处理、基体和共存元素的影响，测量响应值的精密度等因素有关。在分析方法试验确定方法的测量范围时，应当取合适的样品在测量方法的上限和下限附近进行准确度和精度试验。如确定某方法的测量下限为0.002%，那要求有含量在0.002%附近样品测量结果的支持。有些分析方法试验时，任意取两个样品进行准确度和精度试验，而最后确定很宽的测量范围，这种做法不合适。在确定测量范围时任意将测量下限延长至0（如给出某方法的测量范围为0～2.0%），也是不对的。分析方法的检出限和测量下限是根据实际测量的精密度数据按统计方法确定的，不能任意下延。

4.2.6.2　标准加入法

当分析样品组成较复杂，难以制备与样品成分匹配的校准曲线溶液，或难以找到匹配的标准物质时，可采用标准加入法测量并计算分析结果。取数份等量的分析样品溶液，分别加入0、c₁、c₂、c₃、c₄等不同量的待测成分的标准溶液（通常加入的标准溶液是原溶液浓度的1倍、2倍、3倍、4倍），依次在分析条件下测量它们的吸光度值A₀、A₁、A₂、A₃、A₄，绘制吸光度A_i与加入量c_i的校准曲线（图4-6）。校准曲线不通过原点，其与纵坐标相交截距的大小相当于样品中被测成分的吸光度，将校准曲线下延至与表示浓度量的横坐标相交，则原点与相交点的距离即为样品中待测成分的量c_x。由于数份测量溶液中基体（和共存元素）的量是相同的，其化学和物理干扰的影响亦是一致的，即测量时消除了基体（和共存元素）的影响，提高了测量的准确度和精度。有些分析仪器具有在线标准加入法功能，采用双通道蠕动泵，分别将试样溶液和标准溶液导入进样系统。在线加入法可节省配制系列溶液的时间，有很好的实用性。也有的采用流动注射标准加入法进行测量。

图4-6　标准加入法校准曲线

标准加入法所依据的原理是吸光度（或光谱强度）的加和性。采用标准加入法需注意几点：

①标准加入法不能补偿空白和背景对测量的影响。也就是说，只有在不存在或扣除了背景和空白的情况下，标准加入法才能得到可靠的分析结果。采用空白试验溶液作参比，一般可以补偿空白和背景对测量的影响，但是要注意基体（和共存元素）对空白和背景的影响。

②在加标后的溶液中，绘制的校准曲线必须是线性的。

③标准溶液的加入量要适中，通常加入c₁、c₂、c₃的量是样品中待测成分估计量的1倍、2倍、3倍，而加入c₄后的量不超过校准曲线的线性范围。通常在采用标准加入法之前，先对样品进行一次半定量分析，了解待测成分的大致含量，然后确定加入标准溶液的量。

④标准加入法测量的数份溶液中，基体和共存元素的绝对量是一致的，但测量成分与基体和共存元素的相对量是不同的。当干扰效应仅与其绝对量有关，则不影响标准加入法的应用。分析测试中，这种情况是大多数。但是，也有一些方法，干扰效应与其相对量有关，使绘制校准曲线的斜率发生变化，这样，校准曲线延长线与横坐标的交点发生位移，因而求得的分析结果亦不同，这种情况下不能采用标准加入法。该情况虽是少数，但也要引起分析者的注意。

4.2.6.3　校准曲线的再校正（漂移校正）

校准曲线的漂移可能由随机误差引起实验点的波动，也可能由系统误差引起实验点的偏移。如果校准曲线各实验点漂移的大小是固定的，不随成分含量而改变，表明存在固定的系统误差，而引起曲线的平移；如果各实验点的漂移随成分含量而改变，表明存在随含量而改变的相对系统误差，而使校准曲线的斜率发生变化。这样，校准曲线平移可用来校正固定的系统误差，重置斜率可用来校正相对系统误差。事实上，分析测试中校准曲线漂移中的固定系统误差和相对系统误差往往同时存在，因此要对校准曲线的漂移进行校正，需根据测试的实际情况，按漂移后实验点的测量数据计算曲线的截距a和斜率b，或将原实验点与新实验点的测量数据合并计算截距a和斜率b，重新建立校准曲线。这种对校准曲线的校正称为再校正，或漂移校正，在分析仪器的日常分析中广泛应用。

现代分析仪器有很好的稳定性，通常在仪器出厂调试或现场调试时通过大量的标准物质建立了各种类型试样（和品种）的校准曲线，并将其回归方程储存于计算机中。在分析测试时可直接调用相应的校准曲线计算分析结果。但是，仪器有再好的稳定性，即使在同一试验条件下，重复测量的响应值也不可能完全相同。仪器在不同时段的漂移是客观存在的，理想的情况是在测量试样的同时建立校准曲线。但是对大量试样的分析，或要求进行快速分析时，这样的做法是不现实的。为此，在火花发射光谱分析、X射线荧光光谱分析中定期对测量的响应值进行再校正，使测量得到的响应值校正到原校准曲线的响应值，再进行计算。

对测量信号进行再校正，需采用标准化样品。标准化样品成分含量要适当。成分分布必须非常均匀，它可以在标准物质中选取，亦可专门制备（冶炼）。一般采用两个标准化样品进行再校正，其含量值分别位于测量元素校准曲线上限和下限附近。通常称这两个标准化样品为高、低标样品。分析测量中定期用高、低标样品对仪器进行再校正（漂移校正）。

测量响应值的再校正按下列公式计算：

　　（4-48）

　　（4-49）

　　（4-50）

式中　I——分析元素的校正响应值；

I'——分析元素的测量响应值；

I'_h——高含量标准化样品的测量响应值；

I'_l——低含量标准化样品的测量响应值；

I_h——高含量标准化样品的初始响应值；

I_l——低含量标准化样品的初始响应值；

α，β——漂移校正系数。

这样，通过标准化样品的再校正，用漂移校正系数α、β将分析元素的测量响应值I'校正到建立校准曲线的初始值I，从而在校准曲线上计算分析结果。

用标准化样品对测量的响应值进行漂移校正（注意，不是对校准曲线的校正），在冶金材料现场分析中广泛应用。在连续测量中，通常每隔4h或8h用标准化样品进行一次再校正，以修正α、β漂移校正系数。校正时间的间隔取决于仪器的稳定性。

在分析实践中，有时还采用控制样品来检查测量结果的准确度，或对测量结果进行校正。控制样品是标准物质的一种，它的认证值可靠。控制样品往往是针对某一特定品种或牌号的产品专门冶炼和加工的，它与分析样品有基本一致的化学成分、冶炼和加工工艺，具有一致的组织结构。因此，采用控制样品来检查和校正分析样品的测量结果，避免样品组织结构对测量的影响。

4.2.6.4　精密测量法

精密测量法又称高精度测量法、卡点法。分光光度、原子吸收、ICP-AES等分析方法中，常采用精密测量法测定样品中较高含量的成分。通常对待测样品做一次预分析，估计样品中待测成分的大致含量，再配制两个匹配的标准溶液（或取两个标准物质），其浓度（或含量）比预分析值稍高和稍低（例如高0.3%～0.5%和低0.3%～0.5%）。在确定分析条件、仪器稳定后，反复测量低浓度标准溶液、分析样品溶液和高浓度标准溶液（或两个标准物质溶液），分别计算各溶液的平均响应值，按比例关系计算分析样品溶液浓度（或含量）。ISO分析方法标准中将精密测量法应用于ICP-AES法测定钢铁及合金材料中高含量铌和钼。

4.2.6.5　内标法

在光谱分析中，常用内标法绘制校准曲线。内标法是在试样（或试样溶液）和标准物质（或标准溶液）中加入同样浓度的某一元素，利用分析元素和内标元素谱线的强度比与待测元素浓度绘制校准曲线，并进行样品分析。通过强度比建立校准曲线，可减少由于分析条件的变动而引起谱线强度波动的随机误差，提高测量的精密度。

以I_x和c_x表示分析元素的强度和浓度，以I_R和c_R表示内标元素的强度和浓度，分析线和内标线的强度分别为：

当内标元素浓度c_R固定时，a_x、a_R和c_R均为定值，则强度比：

　　（4-51）

即分析元素与内标元素的光谱强度比与分析元素的量成正比，此为内标法的定量分析关系式。

所选择的内标元素应不干扰和影响分析元素的光谱强度（或吸光度）。同样，分析元素亦不影响内标元素的光谱强度（或吸光度）。内标元素的作用，如何选择内标元素、内标线及其浓度等问题可参阅相关专著。

火花源发射光谱、X射线荧光光谱和质谱分析方法中广泛采用内标分析法。在ICP光谱分析法中，由于光源稳定性较好，基体效应较小，一般情况下不采用内标法，但对基体效应较大的样品分析，内标法有助于改善测量的精度和准确度。在双通道原子吸收光谱仪上也可采用内标法进行分析。

4.2.6.6　单点校准

分析测试，特别是在快速分析中，经常采用一个标准物质（或标准溶液）校准后测量待测样品，根据其测量强度（吸光度）比计算分析结果。单点校准法是校准曲线法的一个特例。单点校准的前提必须是其线性回归方程的截距为零（或接近零），在测量范围内有良好的线性关系。单点校准的测量误差可能大于校准曲线法，因此，在采用单点校准法之前必须对方法的测量条件和线性关系有足够的了解。为减少测量误差，选择与样品组成、成分含量接近的标准物质（或标准溶液）进行校准，而不宜用低含量标准物质校准测量高含量样品。红外吸收分析法中用同牌号的碳素钢标准物质校准并测量样品中的碳、硫含量是单点校准的典型实例。

4.2.6.7　加标回收试验

加标回收是通过加标量的回收率来推论测量值是否可靠，它是检查分析测试（分析方法）准确度的一种手段。加标试验的加标量通常控制与被测成分量相近。需注意的是加标回收不能检查测试（方法）中存在的固定系统误差。在分析方法试验研究中仅以加标回收率来论证方法的准确度是不全面的。分析方法测量结果的准确度检验以标准物质测量结果检验，与另一独立分析方法测量结果比对，或进行实验室间测量结果比对为首选。关于加标回收试验的论述详见第8章8.3.6。

4.2.6.8　绘制校准曲线的几个具体问题

①注意自变量和因变量之间的关系。4.2.2中已提及，分析测试中浓度（含量、质量等）c是自变量，信号值y（强度I、吸光度A等）是因变量。校准曲线的回归方程是y=a+bc，从样品的信号值y在校准曲线上计算待测样品浓度c：

如果相反，将y当作自变量，x当作因变量，则校准曲线的回归方程为，c=a+by。两个不同的回归方程计算结果是不一样的。

在绘制校准曲线时不能混淆自变量与因变量间的关系。当采用计算器或软件回归时，注意自变量c和因变量y的输入区域。例如，用Excel表格回归计算时，应将自变量数值c填入x输入区域，因变量数值y填入y输入区域，而不能相反。

②异常实验点的检查和处理。建立校准曲线时，要检查是否存在与拟合的回归直线偏离很远的实验点，即残差绝对值=很大的实验点。当存在远离校准曲线的实验点，而在技术上又找不到它偏离的原因时，应对这样的实验点进行统计检验，以确认它在统计上是否异常。如果异常实验点参与回归，将严重影响所建立回归直线的精度。一组测量数据中是否存在异常实验点，可用标准化残差来检验。

残差，表示测量值y_i偏离回归方程预测值的程度。残差d_i的标准差可用下式表示：

　　（4-52）

则标准化残差为：

　　（4-53）

标准化残差的绝对值与相应临界值（表4-10）比较，若其绝对值大于临界值，则表示该测量值的标准化残差是一个小概率事件，可将其作为异常值剔除。

表4-10　标准化残差临界值表

表4-11列出了对不同浓度x_i用吸光光度法的测量值y_i，求得线性回归方程为：

据表列数据计算各实验点相应的回归值、残差、标准化残差，一并列于表4-11。检验结果表明，第二点的标准化残差的绝对值大于0.05显著性水平的临界值，可认为是一个小概率事件，测量值为异常值，可剔除。

表4-11　不同浓度溶液的观测值、残差及标准化残差

需要指出的是，异常实验点常常能提供其他实验点所不能提供的一些信息，因此，是否将异常实验点剔除需慎重对待，特别是在试验研究工作中，必要的话可进行重复试验。

③校准曲线线性关系好，表示测量的响应值与浓度之间的相关性好，但并不表示校准曲线一定会通过原点。不少情况下，由于空白、基体、共存离子和试验误差的影响，校准曲线的截距未必为零，特别是对痕量分析的校准曲线。不分场合强制使标准曲线过原点是不合理的。有时，零浓度的测量值a₀并不等于校准曲线的截距a。截距a是多点测量的统计值，其可靠性优于单点测量值a₀。

④校准曲线反映响应值和浓度的相关关系，任何校准曲线都应有一个置信区间，只要实验点落在置信区间内，就可以认为整个实验处于控制状态，尽管实验点不一定落在校准曲线上，但仍可以认为校准曲线未发生显著性变化。

⑤除了对所建立的校准曲线进行显著性检验以外，还应检查实验点围绕校准曲线的分布，以确认线性回归模型是否适合用来拟合这一组实验点，或确定回归曲线合适的线性范围，有时或许有更合适的回归模型进行实验点的拟合，如例4-4所示的情况。

4.2 一元线性回归

4.2.1 作图法求两变量间的关系

4.2.2 一元线性回归方程的建立

4.2.2.1 无重复测量回归方程

4.2.2.2 有重复测量回归方程

4.2.3 一元线性回归方程的有效性检验

4.2.3.1 回归方程的方差分析和F检验

4.2.3.2 相关系数（r）检验

4.2.3.3 重复试验的方差分析和失拟变差平方和

4.2.4 回归方程的精度与置信区间

4.2.4.1 回归方程的精密度

4.2.4.2 回归系数b（斜率）的变动性及置信区间

4.2.4.3 常数项a（截距）的变动性及置信区间

4.2.4.4 对取值x0的拟合值y0的变动性及置信区间

4.2.4.5 对测量值x的预测

4.2.5 两条回归直线的比较

4.2.6 一元线性回归方程在分析测试中的应用

4.2.6.1 校准曲线法

4.2.6.2 标准加入法

4.2.6.3 校准曲线的再校正（漂移校正）

4.2.6.4 精密测量法

4.2.6.5 内标法

4.2.6.6 单点校准

4.2.6.7 加标回收试验

4.2.6.8 绘制校准曲线的几个具体问题