第2章 数据基本表述
2.1 数据基本知识
在本书当中,多元分析所涉及的数据主要是横截面数据。对于p个变量x1,x2,…,xp,分别对它们进行n次采样或观测,可以得到一个n×p数据矩阵:
X=(x1,x2,…,xp)np
其中,n代表样本数,每一行代表一个样本点(也称观测点),p是变量个数,每个样本点均用p个指标变量来描述[1]。一般情况下,变量、属性、特征和维可以互换。
表2.1是关于麻杏石甘汤平喘数据集。这张表包含了46个样本,7个变量。其中,自变量为麻黄碱、伪麻黄碱、甲基麻黄碱、野黑樱苷、甘草苷的含量,因变量为引喘潜伏期、咳嗽持续时间。数据表中包含了全部变量的部分观测值。
表2.1 麻杏石甘汤平喘数据集
根据变量是否可测量,变量可分为定量变量和定性变量。定量变量的值可以由测量、统计或计数所得到,一般为数值型,如麻黄碱、甲基麻黄碱、甘草苷等药物的含量;定性变量的值不可测量,只有性质上的不同,变量的取值一般为离散型,如性别、职称等。
根据计量尺度的不同,变量可以更详细地划分为以下三种类型:
(1)分类变量:分类变量的观测值通常是事物的名称或一些符号。每个观测值代表某种状态、类别或编码,如药名、药物编号等。药名的值可以是薄荷、麻黄、甘草……药名的值是可以枚举的。特殊地,当分类变量只有两个状态或类别时,我们称这种变量为二元变量。药物编号虽然可以用数值表示,但它不是数值变量,因为它的数学运算没有意义。药物编号与药物含量(此处,药物含量是数值型变量)不同,一个对象的药物编号减去另一个对象的药物编号是没有任何意义的,所以它不是数值变量,并且不是定量变量。
在一个数据表中,分类变量用于描述对象的特征,不给出实际的大小或数值,因此无法计算它的均值和中位数,需要通过众数(即某个变量出现最频繁的观测值)来度量该变量的中心趋势,2.2节介绍中心趋势度量。
(2)序数变量:序数变量的值之间是有意义的序,它也可用于秩评定,但是任意两个值之间的差是未知的。如药效的等级划分,药效的“差”“一般”“好”,这些值表示了药物效果的递增顺序,但是人们无法量化药效等级“好”和“一般”之间的差别。
序数变量和分类变量一样,无法计算它们的均值,但是序数变量可以用众数和中位数(有序序列的中间值)来描述数据的中心趋势。
(3)数值型变量:该变量是可度量的,其取值是数值型数。表2.1中的变量均为数值型变量。数值型变量可分为比率变量和区间变量。
区间变量是具有相等单位的变量,它的观测值是有序的,人们可以比较和定量评估值之间的差。例如,麻黄碱含量为0.93ng/ml且伪麻黄碱含量为0.52ng/ml时,人们可以说麻黄碱含量比伪麻黄碱含量高0.41ng/ml。然而,区间变量的观测值没有固定的零点。例如,在日历中就没有固定的零点,0年不是指时间的开始。
比率变量是指具有相等的单位和绝对零点的变量,这意味着比率变量的一个值可以是另一个值的倍数,如速度、重量等。
区间变量和比率变量的值都是有数值的、有序的,因此能计算它们的中位数、均值和众数。