第四节 数值型数据的整理与展示
一、数据分组
数据分组是根据统计研究的需要,将原始数据按照某种标准化分成不同的组别,分组后的数据称为分组数据。数据分组的主要目的是观察数据的分布特征。数据经分组后再计算出各组中数据出现的频数,就形成了一张频数分布表。
1.数据分组的方法
(1)单变量值分组和组距分组
单变量值分组是把每一个变量值作为一组,这种分组通常只适合离散变量,且在变量值较少的情况下使用;
组距分组是将全部变量值依次划分为若干个区间,并将这一区间的变量值作为一组。
连续型变量或者变动范围较大的离散型变量,适宜采用组距式分组。
(2)间断组距式分组和连续组距式分组
在组距式分组中,凡是组限不相连的,称为间断组距式分组;凡是组限相连(或相重叠的),即以同一数值作为相邻两组的共同界限,称为连续组距式分组。
连续型变量只能采用连续组距式分组(要遵循“上限不在内”原则);对于离散型变量的组距式分组,既可以采用间断组距式分组,也可以采用连续组距式分组。
(3)等距分组和异距分组
等距分组就是标志值在各组保持相等的组距,即各组的标志值变动都限于相同的范围。凡是在标志值变动比较均匀的情况下,都可采用等距分组。等距分组便于计算,便于绘制统计图。
异距分组即各组的组距不相等。一般地,异距分组适用于如下几种场合:
①标志值分布很不均匀的场合;
②标志值相等的量具有不同意义的场合;
③标志值按一定比例发展变化的场合。
2.分组和编制频数分布表的具体步骤
(1)确定组数
一般情况下,一组数据所分的组数不应少于5组且不多于15组,即5≤K≤15。实际应用时,可根据数据的多少和特点及分析的要求来确定组数。
(2)确定各组的组距
组距是一个组的上限与下限之差。组距可根据全部数据的最大值和最小值及所分的组数来确定,即组距=(最大值-最小值)÷组数。
在编制组距式变量数列时,使用“××以下”及“××以上”这样不确定组距的组,称为开口组,开口组通常以相邻组的组距作为其组距。
为便于计算,组距宜取5或10的倍数,而且第一组的下限应低于最小变量值,最后一组的上限应高于最大变量值。
(3)根据分组整理成频数分布表
3.组距分组的注意事项
(1)组距分组需要遵循“不重不漏”的原则
“不重”是指一项数据只能分在其中的某一组,不能在其他组中重复出现;“不漏”是指组别能够穷尽,即在所分的全部组别中每项数据都能分在其中的某一组,不能遗漏。
为解决“不重”的问题,统计分组时习惯上规定“上组限不在内”,即当相邻两组的上下限重叠时,恰好等于某一组上限的变量值不算在本组内,而计算在下一组内。
①对于离散变量,可以采用相邻两组组限间断的办法解决“不重”的问题;
②对于连续变量,可以采取相邻两组组限重叠的方法,根据“上组限不在内”的规定解决“不重”的问题,也可以对一个组的上限值采用小数点的形式,小数点的位数根据所要求的精度具体确定。
(2)组距分组要避免出现空白组(即没有变量值的组)或个别极端值被漏掉
在组距分组中,如果全部数据中的最大值和最小值与其他数据相差悬殊,为避免出现空白组(即没有变量值的组)或个别极端值被漏掉,可采用开口组的形式。
4.组限和组中值
(1)组限
在组距分组中,一个组的最小值称为下限;一个组的最大值称为上限。
一般情况下,按相邻组的组距来计算开口组的组限,即:
首组开口的下限=首组上限-邻组组距;
末组开口的上限=末组下限+邻组组距。
(2)组中值
组中值是每一组中下限值与上限值中间的值,即
开口组的组中值的计算方法如下:
在组距分组时,通常用组中值作为该组数据的一个代表值。使用组中值代表一组数据时有一个必要的假定条件,即各组数据在本组内呈均匀分布或在组中值两侧呈对称分布。
例2:某同学统计学考试成绩为80分,应将其计入( )。
A.成绩为80分以下人数中
B.成绩为70~80分的人数中
C.成绩为80~90分的人数中
D.根据具体情况来具体确定
【答案】C
【解析】统计分组时习惯上规定“上组限不在内”。
二、数值型数据的图示
条形图、饼图、环形图及累积分布图等都适用于显示数值型数据。此外,对数值型数据还有一些图示方法,这些方法并不适用于分类数据和顺序数据。
1.分组数据:直方图
(1)直方图:用于展示分组数据分布的一种图形,它是用矩形的宽度和高度(即面积)来表示频数分布的。
在图形上,横坐标表示所关心变量的取值区间,纵坐标表示频数,这样得到频数直方图。若纵轴改成频率就得到频率直方图。
为使长条矩形面积和为1,可将纵轴取为频率/组距,如此得到的直方图称为单位频率直方图,或简称频率直方图。此三种直方图的差别仅在于纵轴刻度的选择,直方图本身并无变化。
(2)直方图与条形图的区别
①条形图是用矩形的高度表示各类别频数的多少,其宽度则是固定的;直方图是用矩形的高度表示每一组的频数或频率,宽度则表示各组的组距,因此其高度与宽度均有意义;
②由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列;
③条形图主要用于展示分类数据,而直方图则主要用于展示数值型数据。
2.未分组数据:茎叶图和箱线图
(1)茎叶图
茎叶图是反映原始数据分布的图形。它由茎和叶两部分构成,其图形是由数字组成的。
通过茎叶图,可以看出数据的分布形状及数据的离散状况,比如,分布是否对称,数据是否集中,是否有离群点等。
绘制茎叶图的关键是设计好树茎。制作茎叶图时,首先把一个数字分成两部分,通常是以该组数据的高位数值作为树茎,而且叶上只保留该数值的最后一个数字。
茎叶图类似于横置的直方图,与直方图相比,茎叶图既能给出数据的分布状况,又能给出每一个原始数值,即保留了原始数据的信息;而直方图虽然能很好地显示数据的分布,但不能保留原始的数值。在应用方面,直方图通常适用于大批量数据,茎叶图通常适用于小批量数据。
(2)箱线图
由一组数据的最大值、最小值、中位数和两个四分位数这五个特征值绘制而成的,它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较。
箱线图的绘制方法为先找出一组数据的最大值、最小值、中位数和两个四分位数;然后,连接两个四分位数画出箱子;再将最大值和最小值与箱子相连接,中位数在箱子中间。
通过箱线图的形状可以看出数据分布的特征。
3.时间序列数据:线图
如果数值型数据是在不同时间上取得的,即时间序列数据,则可以绘制线图。线图主要用于反映现象随时间变化的特征。
绘制线图时,时间一般绘在横轴,观测值绘在纵轴。一般应绘成横轴略大于纵轴的长方形,其长宽比例大致为10:7。图形过扁或过于瘦高,不仅不美观,而且会给人造成视觉上的错觉,不便于对数据变化的理解。一般情况下,纵轴数据下端应从“0”开始,以便于比较。数据与“0”之间的间距过大,可以采取折断的符号将纵轴折断。
4.多变量数据的图示
(1)散点图
散点图是用二维坐标展示两个变量之间关系的一种图形。它是用坐标横轴代表变量x,纵轴代表变量y,每组数据(,)在坐标系中用一个点表示,n组数据在坐标系中形成的n个点称为散点,由坐标及其散点形成的二维数据图称为散点图。
(2)气泡图
可用于展示三个变量之间的关系。绘制时将一个变量放在横轴,另一个变量放在纵轴,而第三个变量则用气泡的大小来表示。
(3)雷达图
雷达图是显示多个变量的常用图示方法,也称为蜘蛛图。
设有n组样本,每个样本测得P个变量,要绘制这P个变量的雷达图,其具体做法是:先画一个圆,然后将圆P等分,得到P个点,令这P个点分别对应P个变量,再将这P个点与圆心连线,得到P个辐射状的半径,这P个半径分别作为P个变量的坐标轴,每个变量值的大小由半径上的点到圆心的距离表示,再将同一样本的值在P个坐标上的点连线。这样,n个样本形成的n个多边形就是一张雷达图。
数值型数据的图示总结如表2-3所示。
表2-3 数值型数据的图示
例3:美国汽车制造商协会想了解消费者购车时的颜色偏好趋势,抽取新近售出的40辆车并记录其颜色种类(黑、白、红、绿、棕)和深浅类型(亮色、偏淡、中等、偏浓);你认为以下展示数据的图表中,哪一种不适合用来处理这一样本数据?( )
A.散点图
B.饼图
C.条形图
D.频数图
【答案】A
例4:对于100名学生某一门课程的成绩,若想得到四分之一分位数、中位数与四分之三分位数,以下哪种描述统计的办法更有效?( )
A.直方图
B.茎叶图
C.饼图
D.点图
【答案】B