1.5 统计数据的类型
1.5.1 分类数据、次序数据与数值型数据
按照所采用的计量单位的不同,可以将统计数据分为分类数据、顺序数据和数值型数据。
分类数据只能归于某一类别的非数字型数据,是对事物进行分类的结果,数据表现为类别,用文字来表述。例如,人口按性别分为男、女两类。顺序数据只能归于某一有序类别的非数字型数据,虽然也是类别,但是这些类别是有序的。它是对事物类别顺序的测度,用文字来表述。例如,产品分为一等品、二等品、三等品、次品等。数值型数据是按数字尺度测量的观察值,其结果表现为具体的数值,对事物的精确测度。例如,身高为175cm、168cm、183cm。
分类数据和顺序数据说明的是事物的品质特征,通常是用文字来描述的,其结构均表现为类别,因而也称为定性数据或品质数据。数值型数据说明的是现象的数量特征,通常是用数值来表现的,因此也可以称为定量数据或数量数据。
1.5.2 截面数据、时间数据与面板数据
截面数据是指在同一时间(时期或时点)截面上反映一个总体的一批(或全部)个体的同一特征变量的观测值,是样本数据中的常见类型之一。例如,2014年的工业普查数据、人口普查数据、家庭收入调查数据。
时间数据是在不同时间点上搜集到的数据,这类数据反映某一事物、现象等随时间的变化状态或程度。如我国国内生产总值从1949~2014年的变化就是时间序列数据。
横截面数据是在同一时间,不同统计单位相同统计指标组成的数据列。与时间数据相比较,其区别在于组成数据列的各个数据的排列标准不同。时间数据是按时间顺序排列的,横截面数据是按照统计单位排列的。因此,横截面数据不要求统计对象及其范围相同,但要求统计的时间相同。也就是说,必须是同一时间截面上的数据。与时间数据完全一样,横截面数据的统计口径和计算方法(包括价值量的计算方法)也应当是可比的。
面板数据也叫“平行数据”,是指在时间序列上取多个截面,在这些截面上同时选取样本观测值所构成的样本数据。其有时间序列和截面两个维度,当这类数据按两个维度排列时,是排在一个平面上。与只有一个维度的数据排在一条线上有着明显的不同,整个表格像是一个面板,所以把panel data译作“面板数据”。但是,如果从其内在含义上讲,把panel data译为“时间序列—截面数据”更能揭示这类数据的本质特点。面板数据分析方法是最近几十年来发展起来的新的统计方法,面板数据可以克服时间序列分析受多重共线性的困扰,能够提供更多的信息、更多的变化、更少的共线性、更多的自由度和更高的估计效率。而面板数据的单位根检验和协整分析是当前最前沿的领域之一。
1.5.3 统计数据的误差
统计的整个工作过程就是对数据的加工过程,从原始数据的搜集开始,经过整理、显示、样本信息的提取到总体数量规律性的科学推断,都有一个减小误差、提高数据质量的问题。减小统计数据的误差问题存在于统计研究的全过程中,在不同的统计阶段,统计误差产生的原因和严重程度是不同的。
统计调查阶段是对统计数据的直接搜集,是统计研究的第一步。在这一阶段,对统计数据的误差的控制直接影响到整个统计工作,且统计误差可以从不同的角度分成非抽样误差和抽样误差。
非抽样误差是相对于抽样误差而言的,是指除了抽样误差之外,由其他原因引起的样本观察结果与总体真值之间的差异。其是由于调查过程中各有关环节工作失误造成的,包括调查方案中有关规定或解释不明确所导致的填报错误、抄录错误、汇总错误、不完整的抽样框导致的误差及回答误差、记忆误差、有意识误差、无回答误差、调查员误差、测量误差等。非抽样误差在普查、抽样调查中都可能发生。显然,从理论上看,这类误差是可以避免的。克服或降低非抽样误差时,一方面要加强对统计调查人员的培训,使他们树立很强的责任心和数据质量意识,加强填报和汇总时的检查;另一方面要掌握获取完整抽样框的方法,以及科学抽样的方法和技术。在非抽样误差中还有人为的干扰造成的误差,即有意瞒报或低报数据,这时需要给予特别的注意。例如,在填报产量时,故意虚报产值;又如,在调查市场物价时,故意虚报、低报、瞒报物价指数。
抽样误差是由于抽样的随机性引起的样本结果与总体真值之间的误差。一般情况很难知道总体的真值,我们都是通过抽取样本区推断总体的特征。由于样本只是总体的一部分,用样本信息区推断总体,或多或少总会存在误差,因而抽样误差对任何一个随机样本来讲都是不可避免的。但是它又是可以计量的,并可以控制的。在坚持随机原则的条件下,一般样本量越大,抽样误差就越小。当样本量达到与总体单位相同时,抽样调查就变成了普查,抽样误差也就减小到零。此时,已经不存在样本选择的随机性问题,每个单位都需要接受调查。抽样误差的大小还与总体的变异性有关。总体的变异性越大,即各单位之间的差异越大,抽样误差也就越大,因为有可能抽中特别大或者特别小的样本单位,从而使样本结果偏大或偏小;反之,总体的变异性越小,各元素之间越相似,抽样误差也就越小。如果所有的单位完全一样,调查一个就可以精确无误地推断总体,抽样误差就不存在了。但是,在现实中这种情况也是不存在的。
如何有效地控制各种误差,提高数据质量,是决定统计研究的关键。抽样误差是由于抽样的随机性造成的,只要采用概率抽样,抽样误差就不可避免。但是,抽样误差是可以计算的,在一个特定的研究问题中,研究人员对抽样误差有一个可以容忍的限度,一旦这个限度确定下来,就可以采取相应的措施去控制。例如,可以扩大样本量来降低抽样误差。非抽样误差与随机性无关,其存在于统计问题研究的整个过程中,由很多原因造成,因此控制起来比较困难。我们可以采取挑选和培训调查人员;提高督导员的调查专业水平;对调查过程进行控制等;对调查结果进行检验、评估;对现场调查人员运用奖惩制度等方法。