第五节 试验数据的整理和处理
一、原始数据的整理
原始数据信息庞大,在结果计算和误差分析中并不全用,另外直接用原始记录进行结果计算和误差分析也很不方便,所以需要对原始数据进行整理。
对于分析工作来说,数据整理要求用清晰的格式把平行试验、空白试验和对照试验中相同步骤记录下的原始数据分类列出,其类别至少包含结果计算和误差分析等数据处理工作所需要的一切原始数据,例如试样称量数据、稀释倍数、标准溶液浓度和滴定消耗量、吸光度值等。
数据整理完成后,按分析方法指定的结果计算式计算出各试验的结果,并把它们也列入数据整理表中,以便在误差分析和其他数据处理时使用。
二、可疑数据的取舍——过失误差的判断
方法:Q检验法;格鲁布斯(Grubbs)检验法。
作用:确定某个数据是否可用。
经常会遇到这样的情况,一组平行测定数据中,有一个数据与其他数据偏离较大,若随意处置该数据,将产生三种结果:
(1)不应舍去,而将其舍去 由于该数据存在的较大偏离是较大偶然误差所引起,舍去后,精密度虽提高,但准确度降低,如图1-5(1)所示:c线代表真值所在位置,b线代表所有数据的平均值,a线代表舍去最右端数据后的平均值,可见a线偏离真值更大。
图1-5 可疑值取舍对平均值的影响
(2)应舍去,而未将其舍去 该数据存在的较大偏离由未发现的操作过失所引起,如果将其保留,结果的精密度和准确度均降低。如图1-5(2)所示,所有数据的平均值(b线)偏离真值(c线)较大。如果将其舍去,则结果的精密度和准确度均提高(a线)。
(3)随意处理的结果与正确处理的结果发生巧合,两者一致 虽然结果对了,但这样做盲目性大,随意处理数据使结果无可信而言。
正确的处理是按一定的统计学方法检验可疑值后,再按检验结果决定其取舍。
(一)Q检验法步骤
(1)将平行测定数据按由小到大次序排列X1,X2,…,Xn;
(2)根据该次平行测定个数n和可疑值究竟是X1还是Xn,在统计量Q值计算公式表(见表1-3)中找到相应的计算公式,并将相应数据代入,求出Q计算值;
(3)根据该次平行测定的个数n和所要求的置信概率,通过Dixon检验的临界值(又称为Q极限值)分布表(见表1-3)查得Q极限值值;
(4)如果Q计算≥Q极限值,则可疑值应被舍去,反之可疑值应被保留。
表1-3 Dixon检验的临界值(Q极限值)分布表及统计量(Q计算)的计算公式
(二)格鲁布斯(Grubbs)检验法简介
基本步骤:
(1)将平行测定数据按由小到大次序排列:X1,X2,…,Xn;
(2)求和标准偏差S;
(3)计算G值;或
(4)由测定次数和要求的置信度,查Grubbs检验的临界值表得G表;
(5)比较。
若G计算>G表,弃去可疑值,反之保留。
由于格鲁布斯(Grubbs)检验法引入了标准偏差,所以准确性比Q检验法高。
三、分析方法准确性的检验——系统误差的判断
在工作中经常会遇到这样的问题:①建立了一种新的分析方法,该方法是否可靠?②两个实验室或两个操作人员,采用相同方法,分析同样的试样,谁的结果准确?对于第一个问题,新方法是否可靠,需要与标准方法进行对比实验,获得两组数据,然后加以科学对比。对于第二个问题,由于偶然误差的存在,两个结果之间有差异是必然的,但由偶然误差引起的差异应当是小的、不显著的,只要排除了系统误差,结果的准确度就可通过标准误来判别。无论以上哪种情况,关键是要确定是否存在有系统误差,即检验两组数据之间是否有显著性差异,这是判定新方法是否可靠、谁的结果准确的关键所在。显著性检验方法有t检验法和F检验法。
(一)平均值 与标准值(μ)的比较(t检验法)
该方法用于检验某一方法是否可靠。用被检验方法分析标准试样,得平行测定数据的平均值和标准差S,令标准试样的标准值为μ0。检验步骤如总体均值的检验——t检验法。
当|t计算|≥t表时,说明分析方法存在系统误差,用此方法得出的μ与μ0有显著差异。
例如,某化验室测定某样品中CaO的质量分数为30.43%,得如下结果:n=6,=30.51%,S=0.05%。问此测定是否有系统误差?
解:已知μ0=30.43%,则有
查t分布表知:t表=t(0.05,f=5)=2.57
由于t计算>t表,所以μ和μ0有显著差异,此测定方法存在系统误差。
(二)两组数据的标准偏差和平均值比较(同一试样,无标准值)
该方法用于新方法和经典方法(标准方法)测定的两组数据之间的比较;两位分析人员或两个实验室测定的两组数据之间的比较。
这种方法的检验步骤如两组测量结果的差异显著性检验。
其中:t检验用于与之间的比较。
当t计算>t表,表示与之间有显著性差异,说明新方法可能还需进一步考察改进,或两位分析人员的分析水平不一致,或两个实验室的分析水平不一致。
当t计算<t表,表示与之间无显著性差异,说明新方法与经典方法有相似的可靠性,或两位分析人员的分析水平一致,或两个实验室的分析水平一致。
F检验法用于与之间的比较。
由于标准偏差反映测定结果的精密度,F检验法实质上是检验了两组数据的精密度有无显著性差异。
若F计算>F表,表示两组数据的精密度有显著性差异,反之无显著性差异。
四、有效数字
(一)数字在分析化学中的含义
实验过程中遇到的两类数字:
(1)数目 如测定次数、倍数、系数、分数。
(2)测量值或计算值 数据的位数与测定准确度有关。
记录的数字不仅表示数量的大小,而且要正确地反映测量的精确程度。如称取物质的质量为0.1g,表示是在小台秤上称取的。称取物质的质量为0.1000g,表示是用万分之一的分析天平称取的。要准确配制50.00mL溶液,需要用50.00mL容量瓶配制,而不能用烧杯和量杯。取25.00mL溶液,需用移液管,而不能用量杯。取25mL溶液,表示是用量杯量取的。滴定管的初始读数为零时,应记录为0.00mL,而不能记录为0mL。
分析化学中测定或计算所获得的数据的位数反映出测量结果的精确程度,这类数字称为“有效数字”。在有效数字中,末位数字是不准确的,是估计值,称为可疑数字,具有±1的偏差,其他数字是准确的。
有效数字的位数对相对误差有很大的影响,例如从下列一组数据(表1-4)可看出,三个数值的大小似乎相同,但它们的相对偏差间却有很大差异。
表1-4 相对偏差示例
有效数字的用途、特点和注意点如下:
(1)作普通数字用。
(2)作定位用 如0.0518的3位有效数写作5.18×10-2,又如0.5180的4位有效数字写作5.180×10-1。
(3)改变单位,不改变有效数字的位数,如:24.01mL=24.01×10-3L。
(4)注意点
①分析天平(万分之一)取4位有效数字;
②标准溶液的浓度,用4位有效数字表示;
③pH4.34,小数点后的数字位数为有效数字位数;
④对数值,lgX=2.38,表示两位有效数字。
(二)数字修约规则
1.加减运算
结果的有效数字位数取决于绝对误差最大的数据的位数,即小数点后位数最少的数据的位数。
例:0.0121+25.64+1.057=25.7091,应保留几位有效数字?
0.0121绝对误差:0.0001
25.64绝对误差:0.01
1.057绝对误差:0.001
计算结果的有效数字位数应与25.64保持一致,为:25.71
2.乘除运算
有效数字的位数取决于相对误差最大的数据的位数。
例:(0.0325×5.103×60.06)/139.8=0.071179184
计算各数据的相对误差:
0.0325±0.0001 /0.0325×100%=±0.3%
5.103±0.001 /5.103×100%=±0.02%
60.06±0.01 /60.06×100%=±0.02%
139.8±0.1 /139.8×100%=±0.07%
相对误差最大的数据0.0325有3位有效数字位数,故计算结果应为:0.0712
滴定分析中所采用的容量器皿(滴定管、容量瓶、移液管)均保留四位有效数字,故实验结果的数据有效位数为四位。
3.数字修约规则
在计算和读取数据时,数据的位数可能比规定的有效数字位数多。例如,用计算器可得七位的数据;在用分析天平称量时,可读出小数点后五位;因此需要将多余的数字舍去,舍去多余的数字的过程称为数字修约过程,所遵循的规则称为数字修约规则。
过去常采用:四舍五入的数字修约规则。
现国家标准规定采用:四舍六入五留双的数字修约规则。
例如:
0.132349→0.1323;20.4862→20.49;
1.0055→1.006;1.0025→1.002
四舍六入五留双的规则避免了进舍时的单向性,降低了进舍时产生的误差。
五、回归分析法建立两组数据间的线性关系
(一)最小二乘法拟合的统计学原理
经常需要寻找两组数据间是否存在线性关系,或者已知是线性关系,由试验数据而求线性方程,从而建立标准曲线(工作曲线、校正曲线)的数学表达式等。在此介绍常用的最小二乘法线性拟合,即
一元线性方程:y=a0+a1x
由试验获得m组数据:(yi,xi)(i=1,2,…,m)
假设已求得a0、a1,并将实验所得数据xi代入一元线性方程可计算出相应y的计算值。
如果实测值yi与计算值之间偏差越小,则拟合的越好。拟合最好的时候即偏差平方和最小:
注意:此式中表示的是偏差平方和,而不是标准偏差。
将上式求导,得:
式中等于:
根据上式,将实验数据代入,即可求得拟合程度相对最好的一元线性方程的a0和a1。由此建立的方程称为一元线性回归方程。
(二)相关系数R
相关系数的含义是y和x因某种直接或间接的原因而彼此关联的程度。分析工作中,建立了一个相对最好拟合的一元线性方程后,应当通过相关系数的求取和检验,评价该方程是否已达到可以应用的程度。
相关系数的计算可按下列公式进行:
其中:
式中 xi和yi——标准曲线制作时第i号试液中加入标准溶液后形成的标准物浓度和测定时产生的响应信号值;
m——标准曲线制作时总共进行了几个试液的测定;
和——m个x和m个y的平均值。
计算出R后,如果
R=1,则说明x和y完全线性相关,无实验误差,回归方程可以使用;
R=0,则说明x和y毫无线性关系;回归方程不可以使用;
R等于其他值时,先查相关系数临界值表(见表1-5),查出一定显著性水平下的R临界值,如果R>R临界值,在选定的显著性水平上,x和y显著相关,所建立的回归方程可以使用。否则不能用。
表1-5 相关系数(R)临界值表
例如,采用邻二氮菲比色法测定蘑菇罐头中Fe2+的含量时,采用的标准溶液的浓度为(相当于6.00μg/mL),用标准溶液共进行6次测定(包括一次空白),样品共测了一次(但应用了样品空白),测样品时的取样量是61.9g,处理样品中的稀释比是100∶2,测定数据见表1-6,求该罐头中的Fe2+含量。
表1-6 例题测样数据
解:利用表中标准溶液测定的数据可算得:
b=13.05043R计算=0.98175
回归方程为:y=0.037665+13.05043x
由于f=6-2=4,选定显著性水平为α=0.01,查相关系数临界值表(表1-5)得:R表=0.9172
因为R计算>R表,所以回归方程可用。
根据该方程,y=0.110时,x=(y-a)/b=0.008720(mg)
该蘑菇中Fe2+的含量为:
思考题
1.样品采集与保存的注意事项有哪些?
2.试验样品、复检样品和保留样品的用途各是什么?
3.样品制备常包括哪些处理?样品前处理常包括哪些处理?
4.色谱法中调整保留时间和分离度受哪些因素影响?
5.怎样检验和减免系统误差?怎样减少偶然误差?
6.根据GB/T 2828.1-2012规定,如果是正常抽样检验,如何确定取样量和判断产品质量?
自测题(不定项选择,至少一项正确,至多不限)
1.采样单内容包括( )。
A.物主名称及负责人签字、品名、数量和编号
B.物品产地、生产厂家、生产日期、生产批号
C.检验批数量和每一个检验批采得样品数量
D.采样单位(盖章)、采样人(签字)、采样日期
2.用于微生物检验的样品盛样容器应采用( )消毒处理。
A.消毒剂
B.防腐剂
C.加热
D.紫外线
3.根据( )可得样本量字码。
A.总货批量和检验水平
B.GB/T 2828.1-2008附表
C.GB/T 6378.1-2008附表
D.GB 2760-2014
4.检测时所称的同一“货批”术语是指( )的物品构成的货物群体。
A.相同品名、相同物品、相同来源
B.相同包装
C.相同生产时间和地点
D.相同生产批次
5.每件样品采集好后,立即由采样人封签,并在包装外贴好标签。标签的内容有:( )。
A.样品编号、品名、来源和数量
B.采样日期
C.采样方式
D.采样地点和采样人
6.超临界CO2萃取技术和液态CO2提取技术可提取食品中多种成分,如( )等。
A.香精油等天然有机成分
B.氨基酸、维生素
C.有机磷农药残留
D.寡糖
7.柱层析的效果受很多因素影响,主要因素包括( )。
A.固定相、展开液和洗脱液的极性和离子强度
B.超声和温度
C.柱径和柱长
D.装柱、进样及洗脱速率等
8.检测误差产生的原因主要有( )。
A.系统误差
B.仪器误差
C.试剂误差
D.主观误差
9.偶然误差产生的原因主要有( )。
A.实验室环境温度、压力波动
B.偶然出现的振动
C.操作人员情绪波动
D.操作人员操作精度、读数准确性等
10.减免过失误差的方法主要有( )。
A.加强责任心
B.有错就改
C.可疑值检验
D.重新选择方法
11.一样品质量为0.1000g。这表明该样品是用( )天平称取的。
A.百分之一
B.万分之一
C.十分之一
D.千分之一
12.在有效数字中,末位数字( )。
A.是不准确的,是估计值
B.是可疑数字,具有±1的偏差
C.是可疑数字,其他数字是准确的
D.也是准确的,是有效数字
13.根据现行的国家数字修约规则,如保留小数点后三位数,1.0055和1.0025应是( )。
A.1.006、1.002
B.1.006、1.003
C.1.005、1.002
D.1.005、1.003
14.( )规定了按统计学抽样方案进行检验的程序。
A.GB/T 2828.1和GB/T 6378.1
B.GB/T 2828-2014和GB/T 6378-2015
C.GB/T 2828
D.GB/T 6378
15.检验水平指抽取的样本量和批样本总量之比,通常分为( )水平。
A.Q
B.t
C.Ⅰ和Ⅱ
D.Ⅲ
参考文献
[1]隋红军,管延武.信息化管理系统在职业病健康检查中的开发应用[J].中国医药指南,2011(31):474-475.
[2]张荣珍,隋红军,陈会欣,等.信息化管理系统在预防性健康检查中的开发应用[J].中国医药指南,2010,8(29):172-174.
[3]黄晓钰,刘邻渭.食品化学与分析综合实验[M].北京:中国农业大学出版社,2009.
[4]大连理工大学国家工科化学教学基地analab研究室网络分析化学工作组.分析化学网络课程[M].北京:高等教育出版社,2003.
[5]黄怡淳,丁炜炜,张卓旻,等.食品安全分析样品前处理-快速检测联用方法研究进展[J].色谱,2013,31(7):613-619.