试验设计与统计分析
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

模块四 数据处理基础

学习目标

1.理解真值与平均值的概念,掌握平均值的计算。

2.学会区分绝对误差和相对误差,掌握标准误差的意义和计算方法。

3.理解产生实验误差的原因,区分随机误差、系统误差和过失误差。

4.掌握用精密度、正确度、准确度表示误差性质。

5.掌握有效数字的概念及其计算法则。

任务描述

1.通过学习真值与平均值概念,培养学生科学地分析试验数据,学会用不同种类的平均值表示测量结果的最佳估计。

2.通过学习误差的基本概念,培养学生用实验标准差来表示随机误差的大小。通过学习误差的来源,培养学生通过分析来减少随机误差,避免过失误差。

3.通过学习试验的精准度,培养学生掌握从事精密实验必须掌握的基本方法。

4.通过学习有效数字和试验结果的表示,培养学生学会分析实验过程中实际能够测量到的数字,并能用科学的方法表达,为后续章节试验数据的分析打下基础。

项目一 真值与平均值

一、真值

真值(true value)是指某一时刻和某一状态下,某量的客观值或实际值。真值在试验中一般是未知的。真值又是客观存在的,有时可以说真值又是已知的。例如,国家标准样品的标称值;国际上公认的计量值,如C12的原子量为12,绝对零度为-273.15℃,试验方案设计中的因素水平等;有些值可以当作真值看待,如高精仪器的测量值、多次试验的平均值等。

在计算误差时,通常用以下三种代入计算。

(1)理论真值 如平面三角形三内角之和恒为180°;某一物理量与本身之差恒为0,与本身之比恒为1;理论公式表达或理论设计值等。

(2)约定真值 计算单位制中的约定真值,国际单位制所定义的七个基本单位(长度、质量、时间、热力学温度、物质的量、电流、发光强度),根据国际计算大会的共同约定,国际上公认的计量值,如基本物理常数中的冰点绝对温度,T0=273.15K,真空中的光速c=2.99792458 ×108m/s等。

(3)标准器相对真值 高一级标准器的误差与低一级标准器或普通仪器的误差相比,为1/5(或者1/8~1/10)时,则可以认为前者是后者的相对真值,用比被校仪器高级的标准器的量值作为相对真值。例如,用1.0级、量程为2A的电流表测得某电路电流为1.80A,改用0.1级、量程为2A的电流表通测同样电流时为1.802A,则可将后者视为前者的相对增值,如国家标准样品的标称值、高精度仪器所测之值和多次试验值的平均值等。在科学实验中,真值就是指无系统误差的情况下,观测次数无限多时所求得的平均值。但是,实际测量总是有限的,故将有限次测量所得的平均值作为近似真值(或称为最可信赖值、置信区间)。

二、平均值

1.平均值

平均数(mean)是统计学中最常用的统计量,指资料中数据集中较多的中心位置。在科学试验中,虽然试验误差在所难免,但平均值可综合反映试验值在一定条件下的一般水平,所以经常将多次试验值的平均值作为真值的近似值。平均数的种类很多,统计学中常用的有算术平均数(Arithmetic mean)、中数(Median)、众数(Mode)、几何平均数(Geometric mean)等。具体如下所述。

(1)算术平均数 算术平均数是指观测值的总和除以观测值个数所得的商值,常用x-,y-等表示根据样本大小及分组情况采用直接法或加权法计算。

①直接法:主要适用于样本含量n<30未经分组资料平均值的计算或等精度的试验、试验值服从正态分布(等精度的试验指试验人员、试验方法、试验场合、试验条件相同的试验)。

设有n个观测值:x1x2x3,…,xn;它们的算术平均数计算如下

式中 xi——某个试验值。

②加权法:适用场合为对于样本含量n≥30且已分组的资料,可以在次数分布表的基础上,采用加权法计算平均值,非等精度的实验、试验值服从正态分布。

对某一物理量用不同方法测定,由不同人测定,采用不同试验条件或测定结果由不同部分组成,在计算平均值时常对比比较可靠的数值予以加重平均,称为加权平均。

设有n个实验值:x1x2x3,…,xnw1w2w3,…,wn代表单个试验值对应的权,则它们的加权平均值计算公式为

式中 wi——统计权重。

权重或权值的确定方法如下:

a.当试验次数很多时,以试验之x1在测量中出现的频率ni/n作为权数。

b.如果试验值是在同样的试验条件下测定但是源于不同的组,则以各组试验值出现的次数作为权数。

c.加权平均值即为总算术平均值。

d.根据权与绝对误差的平方成反比来确定权数。

例如,权数的计算如下:

x1的绝对误差为0.1,x2的绝对误差为0.02,则

【例4-1】某班一次技能考核成绩如下:得100分的2人,得90分的9人,得80分的8人,得70分的5人,得60分的3人,得50分的2人,计算这次全班考核的平均成绩。

分析由于数据重复出现,可考虑用加权平均数来进行计算。

解:用加权平均数公式得

算术平均数与每个观察值都有关系,能全面地反映整个观察值的平均数量水平和综合特性。因此,它的代表性是最强的,但它易受一些极端数据的影响。

(2)中数(Median)中数(又称中位数)是指观测值由小到大依次排列后居于中间位置的观测值,记为Md,它从位置上描述资料的平均水平。总体而言,中数对于资料的代表性不如算术平均数;但是如果资料呈偏态分布,或资料的一段或两端无确切数值时,中数的代表性优于算术平均数。

计算中数时,将所有的观测值由小到大依次排列,若观测值的个数n为奇数则中数为

若观测值的个数n为偶数,则中数为

(3)众数(Mode)众数是指试验资料中出现次数最多的那个观测值,用Mo表示。由于间断性变数资料观测值易集中于某一个数值,故众数易于确定。连续性变数资料,由于观测值不易集中于某一数值,所以众数不易确定,可将连续性变数资料次数分布表中分布次数最多一组的组中值作为该样本的概约众数。

使用众数描述试验资料的平均水平,其代表性一般优于中数。因为中数只是从位置上说明资料的数量特征,涉及到的观测值数目太少,对于整个试验的全部资料的代表性有限。而众数在资料中出现的次数多、所占比例大、当然对资料有较高的代表性。

(4)几何平均数(geometric mean)几何平均数是指n个观测值连乘的积的n次方根值,用G表示其计算公式为

当资料中的观察值呈几何级数变化趋势,或计算平均增长率、平均比率等时用几何平均数较好。如计算中国改革开放30多年的年均GDP增长率等。

【例4-2】某果汁厂生产某果汁要经过3道连续作业的工序,3道工序合格率依次为95%,90%和98%,试求3道工序的平均合格率。

解:因为果汁的总合格率是各道工序合格率的连乘积,所以计算3道工序的平均合格率应采用几何平均值方法。

即3道工序的平均合格率为94.28%。

项目二 误差

一、误差的概念

由于试验方法和试验设备的不完善、周围环境的影响以及人的观察力、测量程序等限制,试验观测值和真值之间总是存在一定差异。人们常用绝对误差、相对误差或有效数字来说明一个近似值的准确程度。为了评定试验数据的准确性或误差,认清误差的来源及其影响,需要对试验的误差进行分析和讨论。由此可以判定哪些因素是影响试验准确度的主要方面,从而在以后试验中,进一步改进试验方案,缩小试验观测值和真值之间的差值,提高试验的准确性。

1.绝对误差

在试验过程中由于受技术条件、仪器设备、人为因素及偶然因素的影响,导致试验结果与真值之间存在偏差,这种偏差称为误差,又称绝对误差。即

绝对误差=试验值-真值

绝对误差反映的是试验值偏离真值的大小,可正可负。通常所说的误差一般是指绝对误差。若用xxt、Δx分别表示试验值、真值和绝对误差,则有

由于Δx可正可负所以可进一步转化为

由此可得

试验时真值往往是未知的,所以绝对误差也无法计算出来。但是在试验中可以依据所使用仪器的精确度,或根据试验数据进一步通过合理的统计分析方法对绝对误差的大小进行估算和预测。

最大绝对误差的估算:

(1)用仪器的精度等级估算。

(2)用仪器最小刻度估算一般可取最小刻度值作为最大绝对误差,而取其最小刻度的一半作为绝对误差的计算值。

例如,某压强表注明的精度为1.5级,则表明该表的绝对误差为最大量程的1.5%,若最大量程为0.4MPa,该压强表绝对误差为:0.4 ×1.5%=0.006(MPa);又如某天平的最小刻度为0.1mg,则表明该天平有把握的最小称量质量是0.1mg,所以它的最大绝对误差为0.1mg。可见,对于同一真值的多个测量值,可以通过比较绝对误差限的大小来判断它们精度的大小。

2.相对误差

对于相同或相似的试验,绝对误差可以反映试验值的准确程度,而对于某些试验就无法反映试验值的准确程度。例如,测量大象的体重时出现几千克的绝对误差是正常的,反之我们要测量一个蚂蚁的体重要出现几千克的绝对误差是无法想象的。所以,为了判断试验值的准确性,或必须考虑试验值本身的大小时,我们引入了相对误差(relative error)

这里Er表示相对误差,Δx表示绝对误差,xt表示真值,有以上表达式可以看出相对误差能更准确地表达试验值的准确程度。

【例4-3】已知某样品质量的称量结果为:(38.4 ±0.2)g,试求其相对误差。

二、误差的来源

1.试验材料

试验中,所用的试验材料在质量、纯度上不可能完全一致,就是同一厂家生产的同批号的同一包装内的产品,有时也存在某种程度的不均匀性。试验材料的差异在一定范围内是普遍存在的,这种差异会对试验结果带来影响,产生试验误差。

2.试验仪器和设备

(1)仪器精度有限。

(2)仪器的磨损。

(3)仪器可能不在最佳状态。

(4)测量工具可能没有校正,即使校正,也不可能绝对准确,也有误差。

(5)有时试验中需要同时使用多台仪器,即使使用同一型号的仪器,也会存在一定的差异,同一台仪器不同时间的测定也有差异。

3.试验环境条件

环境因素主要包括温度、湿度、气压、振动、光线、电磁场,海拔高度和气流等。试验在完全相同的环境条件下进行,才能得到可靠的结果。但是由于环境条件复杂,且难以控制,因此,环境条件对试验结果的影响不可避免,特别是试验周期较长的试验环境的变化,可能会使原料的组成、性质和结构等发生变化,同时也可能影响仪器的稳定性,从而引起误差。

4.试验操作

试验操作误差主要是由操作人员引起的。人的生理机能的差异如眼睛的分辨能力,不能正确读数以及辨别颜色的色调及深浅;嗅觉对气味的敏感度等。操作人员的习惯,读数的偏高和偏低,终点观察的超前或滞后。有的试验由多人共同操作,操作人员的素质和固有习惯。

三、误差的分类

实验误差根据其性质或产生的原因可分为随机误差(chance error)、系统误差(systematic error)和过失误差(mistake error)。

1.随机误差

随机误差是指在一定试验条件下,由于受偶然因素的影响而产生的试验误差,如气温的微小波动,电压的波动,原材料质量的微小差异、仪器的轻微震动等。这些影响试验结果的偶然因素是试验者无法严格控制的,所以试验时随机误差是无法避免的,试验者只能在试验时通过试验设计控制误差,进一步通过合理的统计分析方法估算误差。

随机误差是无法预知的,同一个试验多个重复或重复同一试验,各观察值或试验结果之间绝对误差时正时负,绝对误差的绝对值时大时小。随机误差值的出现频率一般具有统计规律,即一般服从正态分布,绝对值小的误差值出现的概率高,而绝对值大的误差值出现的概率低,且绝对值相等的正负误差值出现的概率近似相等,因此当试验次数较多时,由于正负误差值的相互抵消,随机误差的平均值趋向于零。所以,试验时为了提高试验的准确度,进一步减小误差,可以增加试验次数,或者增加重复次数。

2.系统误差

系统误差是指在一定试验条件下,由某个或某些因素按某一确定的规律起作用而产生的误差。系统误差产生的原因是多方面的,可来自仪器(如砝码生锈,皮尺因受力变长等),可来自操作不当,可来自个人的主观因素(如读取液面刻度或尺子刻度时的视角等),也可来自试验方法本身的不完善等。

系统误差的大小及其符号在同一试验中基本上是恒定的,或者随试验条件的改变,系统误差随某一确定的规律变化,试验条件一旦确定,系统误差就是客观存在的恒定值。系统误差不能通过多次试验被发现,也不能通过多次试验取平均值而减小。但只要对系统误差产生的原因有了充分的认识,就可以对它进行校正或设法消除。

3.过失误差

过失误差主要是由于实验人员的粗心大意、失误造成的差错,过失误差是显然与事实不符的误差,没有一定的规律,如读数错误、记录错误或操作失误等。要避免过失误差就要求实验者加强工作责任心。

总之,试验过程中出现误差是不可避免的,但可以设法尽量减少误差,这正是试验设计的主要任务之一。

项目三 试验数据的精准度

试验过程中的误差是无法消除的,这个误差可能是由系统误差产生的,或由随机误差造成的,也有可能是二者叠加造成的。为了更好的将它们加以区分,引入了精密度、正确度、准确度三个能表示误差性质的术语。

一、精密度

精密度(precision)是指在一定条件下多次试验,或同一试验多次重复的彼此符合程度或一致程度,它可以反映随机误差大小的程度。精密度的概念与重复试验时单次试验值的变动性有关,如果试验数据的分散程度较小则说明是精密的。如甲乙两人各做5次同一个试验,所得的数据:

甲:8.5,8.6,8.5,8.4,8.5

乙:8.2,8.4,8.7,8.5,8.9

很显然,甲的试验数据彼此符合程度优于乙的数据,故甲试验员的试验结果精密度较高。

由于精密度反映了随机误差的大小,因此对于无系统误差的试验,可以通过增加试验次数达到提高试验精密度的目的。如果结果足够精密,则只需少量几次重复就能满足试验要求。

1.极差

极差R(range)是指一组试验数据中最大值与最小值之间的差值,即为

由于极差仅利用了最大和最小两个试验值,因此无法精确反映随机误差的大小。但由于它计算方便,在快速检验中仍然得到了广泛的应用。

2.标准误差

标准误差也称作均方根误差、标准偏差或简称为标准差。其计算方法为若随机误差服从正态分布则可用标准差来反映随机误差的大小。总体标准差用σ表示、而样本方差用拉丁字母S表示

标准差不仅与资料值中每一个数据有关,而且能明显地反映出较大的个别误差。标准误差在试验数据分析中有很高的利用频率,常被用来表示试验值的精密度,标准误差越小,则试验数据的精密度越高。

3.方差

方差是各个数据与平均数之差的平方的和的平均数。这里就是标准差的平方,可用σ2(总体方差)和S2(样本方差)表示,显然方差与标准差一样可以反映试验的精密程度,即可以反映随机误差的大小。

二、正确度

正确度是指大量测试结果的(算术)平均数与真值或接受参照值之间的一致程度,它反映了系统误差的大小。正确度是在一定试验条件下,所有系统误差的综合。由于精密度与正确度的高低反映了不同的误差性质与来源,因此试验的精密度高,正确度不一定高,反之试验的精密度不高也不能得到正确度不高的结论。如图4-1所示很好的说明了精密度和正确度的关系。

图4-1 精密度与正确度的关系

三、准确度

准确度(accuracy)反映了系统误差和随机误差的综合情况,表示试验结果与真值或标准值之间相接近的程度。

图4-2 无系统误差的试验

图4-3 有系统误差的试验

如图4-2所示,A、B、C三个试验均无系统误差,实验误差均来自随机误差,试验结果服从正态分布,且对应着同一个真值,即A、B、C三个试验的正确度相同,而三个试验的精密度则依次下降。如图4-3所示,由于试验存在系统误差,A、B、C三个试验的极限平均值都与真值不符,但在多数情况下,A试验的准确度要高于B试验和C试验的准确度。

项目四 有效数字和试验结果的表示

一、有效数字

有效数字:在测量结果的数字表示中,若干位可靠数字加一位可疑数字便构成了有效数字。试验数据总是以一定位数的数字表示出来,这些数字都是有效数字,而有效数字的末位数字往往是估计出来的,具有一定的误差。例如,用量筒测量出试验液体的体积为35.55cm3,共有四位有效数字,其中35.5是由量筒的刻度读出的,是准确的,而最后一位“5”则是估计出来的,是存在可疑成分的或欠准确的。

有效数字的位数可反映实验的精度或表示所用实验仪器的精度,所以不能随意多写或少写,若多写一位,则该数据不真实,不可靠;若少写一位,则损失了试验精度,试验结果同样不可靠,更是对高精仪器和时间的浪费。

小数点的位置不影响数据中有效数字的位数,例如120cm3,10.0cm3两个数据的准确度是相同的,它们有效数字的位数都为3位。

数字0在非0数字之间或末尾为有效数字,第一个非零数前的数字都不是有效数字。例如12cm3和12.00cm3并不等价,前者有效数字为两位,后者是四位有效数字。它们是由精密程度不同的仪器测量获得的。所以在记录测量数据时不能随便省略末位的0。

二、有效数字的运算

在试验数据的整理或者数据分析过程中总是要涉及有效数字的运算,有以下几种运算类型。

(1)加、减运算 加、减法运算后的有效数字,取到参与运算各数中最靠前出现可疑数的那一位。例如:12.6+8.46+0.008计算方法如下

计算结果应为21.1。

(2)乘、除运算 在乘除运算中,乘积和商的有效数位数,以参与运算各数中有效位数最少的为准。例如12.6 ×2.21的有效数字为27.8。

(3)乘方、开方运算 乘方、开方运算结果有效数字的位数应与其底数的相同。例如=2.4083,其有效数字为2.4,而3.42=11.56,其有效数字为11.6。

(4)对数运算 对数的有效数字位数与其真数相同。例如ln2.84=1.0438,其有效值为1.04。

(5)自然数不是测量值,不存在误差,故有效数字为无穷位。

(6)常数π、e等的位数可与参与运算的量中有效数字最少的位数相同或多取一位。

(7)一般试验中,有效数字取2~3位有效数字就可以满足试验对精确度的要求,只有试验对精确度要求特别高时才取4位有效数字。

从有效数字的运算可以看出,每一个中间数据对试验结果的影响程度是不同的,净度低的数据对结果的影响较大。所以在试验中应尽量选用精度一致的仪器和仪表,一两个高精度的仪器、仪表无助于提高整个实验的精度。

三、有效数字的修约规则

数值修约:对某一表示试验结果的数值(拟修约数)根据保留位数的要求,将多余的数字进行取舍,按照一定的规则,选取一个近似数(修约数)来代替原来的数,这一过程称为数值修约。有效数字的修约规则有以下几种。

(1)拟舍弃数字的最左一位小于5,则舍弃,即保留的个位数不变。例如53.4423修约到小数点后一位为53.4,将4.2348修约到小数点后两位为4.23。

(2)拟舍弃数字的最左一位大于或等于5,且其后跟有非0数值时,则进1,即保留的末位数加1,如将1578修约到保留两位有效数字为16 ×102,将10.50修约到保留两位有效数字为11。

(3)拟舍弃数字的最左一位等于5,且其右无数字或皆为0时,若所保留的末位数字为奇数(1、3、5、7、9)则进1,为偶数(2、4、6、8、0)则舍弃。如:将13.50修约到保留两位有效数字为14,将18.50修约到保留两位有效数字为18。

需要注意的是,若有多位要舍去,不能从最后一位开始进行连续的取舍,而是以拟舍弃数字的最左一位数字作为取舍的标准。

练习题

1.设用三种方法测定某溶液浓度时,得到三组数据,其平均值如下:

试求它们的加权平均值。

2.在测定菠萝中维生素C含量的试验中,测得每100g菠萝中含有18.2mg维生素C,已知测量的相对误差为0.1%,试求每100g菠萝中含有的维生素C的质量范围。

3.在用发酵法生产赖氨酸的过程中,对产酸率(%)作6次测定。样本测定值为3.48、3.37、3.47、3.38、3.40、3.43,求该组数据的算术平均值、中数、几何平均值、标准差、样本方差、算术平均误差和极差?

4.误差根据其性质或产生的原因分别是什么?

5.何为系统误差、随机误差?想一想在试验室如何控制试验误差?

6.精密度、正确度、准确度的概念及意义?

7.真值定义,平均值定义及种类?

8.将下列数据保留4位数字:3.1459、136653、2.33050、2.7500、2.77447。

9.有效数字的修约规则如何?