模块三 数据资料的整理
学习目标
1.了解数据资料的来源、核对。
2.理解不同类型资料的性质。
3.掌握连续性变数和间断性变数数据资料的整理。
任务描述
1.通过学习数据资料的来源、核对和分类,培养学生系统地分析试验数据资料,找出数据资料中的离群值或科学地弥补缺失数据。
2.通过学习连续性变数和间断性变数数据资料的整理,培养学生科学地分析原始资料,发现试验规律,揭示事物本质。
项目一 数据资料的来源、核对和分类
一、数据资料的来源
实验数据的收集是研究工作的基础。在试验资料收集过程中,除对试验方案要求的试验指标进行正确测定量化外,还应对与试验结果分析有关的所有情况进行观察记录。
1.生产记录
在实际生产过程中,原料的来源、品种和批次,每次投料的数量和比例,加工过程中温度的变动和时间的长短,产品在储存过程中的温度、湿度及时间等,这些均需认真地进行记录,并以产品生产档案归档。这些资料以数据资料的形式记载,为改进产品质量、新产品的开发及产品货架期的研究提供了第一手资料。
2.抽样检验
在实际生产中,由于原料来源的广泛性及数量较多,全面检验难度较大、较难,因此往往应对所用原料的重要成分和外观性状进行抽样检验,根据对所得到的数据资料进行分析,以深入评估该批原料质量形状,从而调整工艺、配方及保存时间,进一步保证产品质量的稳定性。
3.试验研究
一款新产品在规模生产或者某新鲜农副产品的商业性储藏周期确定之前,需要对其进行一系列的试验研究。根据该阶段新工艺设计的方案进行试验,通过取得的试验数据,如产品原辅料的比例,罐头热处理的温度和时间,果蔬在不同储藏条件下的硬度、可溶性固形物、各种有关酶类活性的变化等。通过对所得数据资料的分析,最后判定新产品的工艺是否成功,能否推向规模化生产。
二、数据资料的检查与核对
检查和核对原始资料的目的在于确保原始资料的完整性和正确性。完整性是指原始资料无遗缺或重复。正确性是指原始资料的测量和记载无差错或未进行不合理的归并。在检查过程中,要结合专业知识作出判断,应特别注意特大、特小和异常数据。对于有重复、异常或遗漏的资料,应予以删除或补齐;对有错误、相互矛盾的资料应进行更正,必要时进行复查或重新试验。虽然检查、核对资料的工作简单,但在数据处理过程中却是一项非常重要的步骤,因为只有完整、正确的资料,才能真实地反映出调查或试验的客观情况,经过统计分析后才能得出正确的结论。
1.离群值的检测
离群值是指在数据中有一个或几个数值与其他数值相比差异较大。科学试验中经常会有出现离群值的情况,究竟是由于随机因素引起的,还是由于某些确定因素造成的,有时难以判断,如果处理不好将会引起较大的试验误差。对离群值的处理应该采用统计判断的方法,如昌文特(chanwennt)准则规定,如果一个数值偏离观测平均值的概率小于或等于1/(2n),则应当舍弃该数据(其中n为观察次数,可以根据数据的分布估计该概率)。在统计学上也可用线性回归的方法对离群值进行判断。当出现离群值的时候,要慎重处理,要将专业知识和统计学方法结合起来,首先应认真检查原始数据,看能否从专业上加以合理的解释,如数据存在逻辑错误而原始记录又确实如此,又无法再找到该观察对象进行核实,则只能将该观测值删除。如果数据间无明显的逻辑错误,则可将离群值删除前后各做一次统计分析,若前后结果不矛盾,则该观测值可予以保留。
2.缺失数据的弥补
在试验过程中由于意外造成试验数据缺失或试验数据无法测取,不要轻易放弃试验结果分析,当缺失数据不超过总数据的3%,可通过一定的统计原理,估算出缺失数据,然后再进行统计分析。
(1)随机区组试验缺区数据的估算公式
式中 X——缺区理论估计值;
n——区组数(或重复数);
k——处理数;
Tt——缺区所在的不包括缺区数值在内的处理总和;
Tr——缺区所在但不包括缺区数值在内的区组总和;
T——缺区除外的全试验数据总和。
(2)裂区试验缺区数据的估算公式
式中 X——缺区理论估计值;
r——区组数(或重复数);
b——副区处理数;
Tm——缺区所在的不包括缺区数值在内的副处理总和;
Tt——缺区所在但不包括缺区数值在内的区组总和;
T——缺区除外的该主区试验数据总和。
裂区试验的每一个主区处理都可比作是一个具有b个副区处理,r次重复的随机区组试验。所以有副区缺失,可按随机区组相同原理来估算。
3.数据转换
大多数试验数据都要进行方差分析,而方差分析是建立在线性可加模型基础上的,因此进行方差分析的数据必须满足三个基本假定,即数据资料必须具有可加性、正态性和同质性。
试验所得的各种数据,要全部符合上述三个假定,往往是不容易的,因而采用方差分析所得结果,只能认为是近似的结果。对于明显不符合基本假定的试验资料,在进行方差分析之前,一般要针对数据的主要缺陷,采用相应的变数转换,然后用转换后的数据进行方差分析。常用的数据转换方法有以下几种。
(1)平方根转换 平方根转换适用于较少发生事件的计数资料,一般这类资料其样本平均数与方差之间有某种比例关系。如单位面积上某种昆虫的头数或某种杂草的株数等资料。转换的方法是求出原始数据x的平方根。如果绝大多数原始数据小于10,并有接近或等于0的数据出现,则可用原始数据加1再进行求平方根来转换数据。如果绝大多数原始数据大于10,并有接近或等于0的数据出现,则宜用原始数据加0.5再进行求平方根来转换数据。
(2)对数转换 对数转换适用于来自对数正态分布总体的试验资料,这类数据表现为非可加性,具有成倍加性或可乘性的特点,同时样本平均数与其极差或标准差成比例关系,如环境中某些污染物的分布、植物体内某些微量元素的分布等资料,可用对数转换来改善其正态性。对数转换的方法是取原始数据的常用对数或自然对数,如果原始数据值较小,有接近或等于0的数据出现,可采用原始数据加1再进行数据转换。
(3)反正弦转换 反正弦转换适用于百分数资料,这类资料来自于二项分布总体,其方差不符合同质性假定,且当p≠q时其分布是偏态的。因此,在理论上如果p<0.3就需作反正弦转换,以获得一个比较一致的方差,如种子发芽率、结实率、发病率等资料。反正弦转换的方法是将百分数的平方根值取反正弦值,也可直接查反正弦转换表得到相应的反正弦值。
三、数据资料的分类
在试验中,我们所要观察记载的试验指标有些可以量化测定,有些则难以量化测定。为了科学合理地收集试验资料,必须清楚所观察记载的试验资料的性质。一般在调查或试验中,由观察、测量所得的数据按其性质的不同,一般可以分为连续性资料、间断性资料和分类资料。
1.连续性变数资料
连续性资料是指能够用测量手段得到的数量资料,即用度、量、衡等计量工具直接测定的数量资料。其数值特点是各个观测值不一定是整数,两个相邻的整数间可以有带小数的任何数值出现,其小数位数的多少由测量工具的精度而定,它们之间的变化是连续性的。因此,这类资料也称为连续性资料。常见的连续性资料有食品中各种营养素的含量、袋装食品中食品质量的多少、动植物的生理生化指标等。连续性资料一般也称为计量资料。
2.间断性资料
间断性资料是指用计数方式得到的数据资料。在这类资料中,它的各个观察值只能以整数表示,在两个相邻整数间不得有任何带小数的数值出现。如一箱饮料的瓶数、一箱水果的个数、单位容积内细菌数、小麦穗粒数、鸡的产蛋数、鱼的尾数、小麦分蘖数等,这些观察值只能以整数来表示,观察值是不连续的,因此该类资料也称为不连续性变异资料或计数资料。
项目二 数据资料的性质及整理
试验或调查研究得到的资料,未经整理之前是杂乱无章的,很难找出其规律。所以第一步就是对资料进行整理,把观察值按数值大小或数据类别进行整理,便可以看到资料的集中和变异情况,这样才能对资料有一个初步的了解,也可从中发现一些规律和特点。
一、连续性变数资料的整理
连续性变数资料可采用组距式分组法进行整理。必须先确定组数、组距、组限和组中值,然后按观察值大小进行分组。如表3-1所示,以某糖心苹果品种100个果实单果质量资料为例,说明其整理方法。
表3-1 某糖心苹果品种100个果实单果质量 单位:g
求全距——观察值中最大值与最小值的差数即为全距,要确定组数必须先求出全距。也是整个样本变异幅度,一般用R表示。如表3-2所示可见,最大的观察值为555g,最小值为66g,全距为555-66=489g。
确定组数和组距——根据全距分为若干组,每组距离相等,组与组之间的距离称为组距。组数和组距是相互决定的,组距小,组数多,反之组距大,组数少。在整理资料时,既要保持真实面目,又要使资料简化,认识其中的规律。在确定组数时应考虑观察值个数的多少,极差的大小,以及是否便于计算,能否反映出资料的真实面目等方面。一般样本适宜的分组数如表3-2所示。组数确定后,再决定组距。组距=全距/组数。如表3-1所示某糖心苹果品种100个果实单果质量样本容量为100,假定分为11组,则组距应为489/11=44.5g。为方便起见,可用45g作为组距。
表3-2 不同容量的样本适宜的分组数
确定组限和组中值(中点值)——每组应有明确的界限,才能使观察值划入一定的组内,为此必须选定适当的组中值和组限。组中值最好为整数,或与观察值位数相同,便于计算。一般第一组组中值应以接近最小观察值为好,其余的依次而定。这样避免第一组次数过多,不能正确反映资料的规律。组限要明确,最好比原始资料的数字多一位小数,这样可使观察值归组时不致含糊不清。上下限为组中值±1/2组距。本例第一组组中值定为60g,它接近资料中最小的观察值。第二组的组中值为第一组组中值加组距,即60 +45=105(g)。第三组为105 +45=150(g),以此类推。每组有两个组限,数值小的为下限,大的为上限。本例中第一组的下限为该组组中值减去1/2组距,即60-45/2=37.5(g),上限为该组组中值加1/2组距,即60 +45/2=82.5(g),所以第一组的组限为37.5~82.5g。第二组和以后各组的组限可以以同样的方法算出。
原始资料的归类按原始资料中各个观察值的次序,把逐个数值归于各组。待全部观察值归组后,即可求出各组次数,制成次数分布表,如本例将表3-1资料整理后制成次数分布表如表3-3所示。
表3-3 某糖心苹果品种100个果实单果质量的次数分布表
二、间断性变数资料的整理
非连续性变数资料的整理,根据资料性质不同可采用单项式分组法或组距式分组法进行整理。
单项式分组法——单项式分组法是用样本的自然值进行分组,每个组都用一个观察值来表示。现以100包蒜香花生每包检出不合格颗数为例来说明单项式分组法。随机抽取100包蒜香花生,计数每包不合格颗数,其资料如表3-4所示。
表3-4 100包蒜香花生每包检出不合格颗数
上述资料是间断性(非连续性变数)资料,每包不合格颗数的变动范围在15~20,把所有的观察值按每包不合格蒜香花生颗数多少加以归类,共分6组。每一个观察值按其大小归到相应的组内。用“f”表示每组出现的次数。这样就可得到如表3-5所示形式的次数分布表。
表3-5 100包蒜香花生每包检出不合格颗数
如表3-5所示,一堆杂乱无章的原始数据,经初步整理后,就可以看出其大概情况,如每包不合格蒜香花生颗数以17个为最多,以20、15个为最少。经过整理的资料也有利于进一步分析。
组距式分组——有些间断性(非连续性变数)资料,观察值的个数较多,变异幅度也较大,不可能如上例那样按单项式分组法进行整理。例如,研究某金钱橘品种的每果种子数,共观察200个果实,每果种子数变异幅度为27~83粒,相差56粒。这种资料如按单项式分组则组数太多(57组),其规律性显示不出来。如按组距式分组,每组包含若干个观察值,例如,以5个观察值为一组,则可以使组数适当减少。经初步整理后分为12组,资料的规律性较明显,如表3-6所示。
表3-6 200个金钱橘果实种子数的次数分布表
如表3-6所示,约半数金钱橘的每果种子数在46~60粒间,大部分金钱橘的每果种子数在41~70粒,但也有少数金钱橘少到26~30粒,多到81~85粒。
三、次数分布图
试验资料除用次数分布表表示外,还可以用次数分布图表示。用图形表示资料的分布情况叫做次数分布图。次数分布图可以更形象更清楚地表明资料的分布规律。次数分布图有柱形图、多边形图、条形图和饼图等。其中柱形图和多边形图适用于表示连续性变数资料的次数分布;条形图和饼图则是表示间断性(非连续性变数)资料和分类资料的次数分布。柱形图、多边形图和条形图等三种图形的关键是建立直角坐标系,横坐标用“X”表示,它一般表示组距或组中值;纵坐标用“Y”表示,它一般表示各组的次数。
练习题
1.数据资料的来源是什么?
2.数据资料可以分为哪几类?它们有何区别与联系?
3.为什么要对资料进行整理?对于资料的整理的基本步骤有哪些?
4.简述试验资料收集时应注意哪些问题?
5.次数分布图主要有哪几种图,分别适用于什么情况?
6.请按要求整理下面所给的数据资料:
对某果酱加工厂加工的果酱进行了抽查,得出150瓶的净重如下表所示。请按连续性变数资料整理的要求,整理确定该批抽查样本的组数、组距、组限和组中值。
某果酱加工厂的150瓶果酱净重 单位:g