2020年应用统计硕士(MAS)考试专用教材
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第四节 数值型数据的整理与展示

一、数据分组

数据分组是根据统计研究的需要,将原始数据按照某种标准化分成不同的组别,分组后的数据称为分组数据。数据分组的主要目的是观察数据的分布特征。数据经分组后再计算出各组中数据出现的频数,就形成了一张频数分布表。

1.数据分组的方法

(1)单变量值分组和组距分组

单变量值分组是把每一个变量值作为一组,这种分组通常只适合离散变量,且在变量值较少的情况下使用;

组距分组是将全部变量值依次划分为若干个区间,并将这一区间的变量值作为一组。

连续型变量或者变动范围较大的离散型变量,适宜采用组距式分组。

(2)间断组距式分组和连续组距式分组

在组距式分组中,凡是组限不相连的,称为间断组距式分组;凡是组限相连(或相重叠的),即以同一数值作为相邻两组的共同界限,称为连续组距式分组。

连续型变量只能采用连续组距式分组(要遵循“上限不在内”原则);对于离散型变量的组距式分组,既可以采用间断组距式分组,也可以采用连续组距式分组。

(3)等距分组和异距分组

等距分组就是标志值在各组保持相等的组距,即各组的标志值变动都限于相同的范围。凡是在标志值变动比较均匀的情况下,都可采用等距分组。等距分组便于计算,便于绘制统计图。

异距分组即各组的组距不相等。一般地,异距分组适用于如下几种场合:

标志值分布很不均匀的场合;

标志值相等的量具有不同意义的场合;

标志值按一定比例发展变化的场合。

2.分组和编制频数分布表的具体步骤

(1)确定组数

一般情况下,一组数据所分的组数不应少于5组且不多于15组,即5≤K≤15。实际应用时,可根据数据的多少和特点及分析的要求来确定组数。

(2)确定各组的组距

组距是一个组的上限与下限之差。组距可根据全部数据的最大值和最小值及所分的组数来确定,即组距=(最大值-最小值)÷组数。

在编制组距式变量数列时,使用“××以下”及“××以上”这样不确定组距的组,称为开口组,开口组通常以相邻组的组距作为其组距。

为便于计算,组距宜取5或10的倍数,而且第一组的下限应低于最小变量值,最后一组的上限应高于最大变量值。

(3)根据分组整理成频数分布表

3.组距分组的注意事项

(1)组距分组需要遵循“不重不漏”的原则

“不重”是指一项数据只能分在其中的某一组,不能在其他组中重复出现;“不漏”是指组别能够穷尽,即在所分的全部组别中每项数据都能分在其中的某一组,不能遗漏。

为解决“不重”的问题,统计分组时习惯上规定“上组限不在内”,即当相邻两组的上下限重叠时,恰好等于某一组上限的变量值不算在本组内,而计算在下一组内。

对于离散变量,可以采用相邻两组组限间断的办法解决“不重”的问题;

对于连续变量,可以采取相邻两组组限重叠的方法,根据“上组限不在内”的规定解决“不重”的问题,也可以对一个组的上限值采用小数点的形式,小数点的位数根据所要求的精度具体确定。

(2)组距分组要避免出现空白组(即没有变量值的组)或个别极端值被漏掉

在组距分组中,如果全部数据中的最大值和最小值与其他数据相差悬殊,为避免出现空白组(即没有变量值的组)或个别极端值被漏掉,可采用开口组的形式。

4.组限和组中值

(1)组限

在组距分组中,一个组的最小值称为下限;一个组的最大值称为上限。

一般情况下,按相邻组的组距来计算开口组的组限,即:

首组开口的下限=首组上限-邻组组距;

末组开口的上限=末组下限+邻组组距。

(2)组中值

组中值是每一组中下限值与上限值中间的值,即

开口组的组中值的计算方法如下:

在组距分组时,通常用组中值作为该组数据的一个代表值。使用组中值代表一组数据时有一个必要的假定条件,即各组数据在本组内呈均匀分布或在组中值两侧呈对称分布。

例2:某同学统计学考试成绩为80分,应将其计入(  )。

A.成绩为80分以下人数中

B.成绩为70~80分的人数中

C.成绩为80~90分的人数中

D.根据具体情况来具体确定

【答案】C

【解析】统计分组时习惯上规定“上组限不在内”。

二、数值型数据的图示

条形图、饼图、环形图及累积分布图等都适用于显示数值型数据。此外,对数值型数据还有一些图示方法,这些方法并不适用于分类数据和顺序数据。

1.分组数据:直方图

(1)直方图:用于展示分组数据分布的一种图形,它是用矩形的宽度和高度(即面积)来表示频数分布的。

在图形上,横坐标表示所关心变量的取值区间,纵坐标表示频数,这样得到频数直方图。若纵轴改成频率就得到频率直方图。

为使长条矩形面积和为1,可将纵轴取为频率/组距,如此得到的直方图称为单位频率直方图,或简称频率直方图。此三种直方图的差别仅在于纵轴刻度的选择,直方图本身并无变化。

(2)直方图与条形图的区别

条形图是用矩形的高度表示各类别频数的多少,其宽度则是固定的;直方图是用矩形的高度表示每一组的频数或频率,宽度则表示各组的组距,因此其高度与宽度均有意义;

由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列;

条形图主要用于展示分类数据,而直方图则主要用于展示数值型数据。

2.未分组数据:茎叶图和箱线图

(1)茎叶图

茎叶图是反映原始数据分布的图形。它由茎和叶两部分构成,其图形是由数字组成的。

通过茎叶图,可以看出数据的分布形状及数据的离散状况,比如,分布是否对称,数据是否集中,是否有离群点等。

绘制茎叶图的关键是设计好树茎。制作茎叶图时,首先把一个数字分成两部分,通常是以该组数据的高位数值作为树茎,而且叶上只保留该数值的最后一个数字。

茎叶图类似于横置的直方图,与直方图相比,茎叶图既能给出数据的分布状况,又能给出每一个原始数值,即保留了原始数据的信息;而直方图虽然能很好地显示数据的分布,但不能保留原始的数值。在应用方面,直方图通常适用于大批量数据,茎叶图通常适用于小批量数据。

(2)箱线图

由一组数据的最大值、最小值、中位数和两个四分位数这五个特征值绘制而成的,它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较。

箱线图的绘制方法为先找出一组数据的最大值、最小值、中位数和两个四分位数;然后,连接两个四分位数画出箱子;再将最大值和最小值与箱子相连接,中位数在箱子中间。

通过箱线图的形状可以看出数据分布的特征。

3.时间序列数据:线图

如果数值型数据是在不同时间上取得的,即时间序列数据,则可以绘制线图。线图主要用于反映现象随时间变化的特征。

绘制线图时,时间一般绘在横轴,观测值绘在纵轴。一般应绘成横轴略大于纵轴的长方形,其长宽比例大致为10:7。图形过扁或过于瘦高,不仅不美观,而且会给人造成视觉上的错觉,不便于对数据变化的理解。一般情况下,纵轴数据下端应从“0”开始,以便于比较。数据与“0”之间的间距过大,可以采取折断的符号将纵轴折断。

4.多变量数据的图示

(1)散点图

散点图是用二维坐标展示两个变量之间关系的一种图形。它是用坐标横轴代表变量x,纵轴代表变量y,每组数据()在坐标系中用一个点表示,n组数据在坐标系中形成的n个点称为散点,由坐标及其散点形成的二维数据图称为散点图。

(2)气泡图

可用于展示三个变量之间的关系。绘制时将一个变量放在横轴,另一个变量放在纵轴,而第三个变量则用气泡的大小来表示。

(3)雷达图

雷达图是显示多个变量的常用图示方法,也称为蜘蛛图。

设有n组样本,每个样本测得P个变量,要绘制这P个变量的雷达图,其具体做法是:先画一个圆,然后将圆P等分,得到P个点,令这P个点分别对应P个变量,再将这P个点与圆心连线,得到P个辐射状的半径,这P个半径分别作为P个变量的坐标轴,每个变量值的大小由半径上的点到圆心的距离表示,再将同一样本的值在P个坐标上的点连线。这样,n个样本形成的n个多边形就是一张雷达图。

数值型数据的图示总结如表2-3所示。

表2-3  数值型数据的图示

例3:美国汽车制造商协会想了解消费者购车时的颜色偏好趋势,抽取新近售出的40辆车并记录其颜色种类(黑、白、红、绿、棕)和深浅类型(亮色、偏淡、中等、偏浓);你认为以下展示数据的图表中,哪一种不适合用来处理这一样本数据?(  )

A.散点图

B.饼图

C.条形图

D.频数图

【答案】A

例4:对于100名学生某一门课程的成绩,若想得到四分之一分位数、中位数与四分之三分位数,以下哪种描述统计的办法更有效?(  )

A.直方图

B.茎叶图

C.饼图

D.点图

【答案】B