1.3 统计学中的基本术语
1.3.1 总体、个体与样本
总体是在一定的研究目的下,所要研究事物的全体。它是由客观存在的、具有某种共同性质的众多个别事物构成的整体[10],总体规模用N表示。
构成总体的个别事物是个体或总体单位。个体是所要研究具体问题的承担者。在统计调查中,常常称总体为调查对象,称个体为调查单位。
样本[11]是从总体中抽取的一部分个体的集合,构成样本的个体的数目称为样本容量,用n表示。一个样本单位必定是一个总体单位;样本是总体的代表,带来了总体的信息,与总体有同质的数量特征;样本具有随机性,而研究目的一经确定,总体就是唯一的。从总体中随机抽取一部分个体作为样本,目的是要根据样本提供的有关信息去推断总体的特征。总体的规模N可以很大,甚至可以无穷大,样本是总体的一个子集,其规模n小于或者大大小于总体规模N。
比如,若要了解某校学生的学习情况,学习情况具体体现在学生身上,所以全校所有的学生是总体,每一个学生是个体,从全校所有的学生中随机抽取400名学生就构成了一个样本,通过400名学生的学习情况如平均成绩、及格率等,可以推断全校学生的学习情况。若要研究某市的工业生产情况,工业生产情况具体体现在工业企业中,该市每一个工业企业是个体,所有的工业企业是总体,从中抽取的若干个工业企业构成一个样本,通过样本工业企业的产值、利润、上缴税金、劳动生产率等,可以推算全市工业产值、利润、上缴税金、劳动生产率等。若要研究某市的工业生产设备情况,工业生产设备情况具体体现在设备上,所以每一台工业生产设备是个体,该市所有的工业生产设备是总体,从中抽取的部分工业生产设备是样本,通过这些设备的净值、生产能力等,可以推算全市所有工业生产设备的净值、生产能力等。
在这些例子中,了解“学习情况”“工业生产情况”“工业生产设备情况”是研究目的;学籍、进行工业生产、用于工业生产的设备分别是这些学生、工业企业、工业生产设备的“共同性质”;若干名学生、若干个工业企业、很多的工业生产设备分别是“众多个别事物”。
总体具有以下特点:
(1)总体具有同质性。它是指构成总体的总体单位在某一方面性质是相同的。只有性质相同的人、单位、物等才能集合在一起,研究其数量表现和数量联系才有意义。因此,同质性是构成总体的基础。
(2)总体具有大量性。它是指构成总体的总体单位必须足够多。总体单位是总体数量特征最原始的承担者,总体的数量特征很多时候是无法直接观测到的,只能通过对总体单位的数量特征进行观测才能得到。而总体单位的数量特征可能各不相同,没有规律可循,只有对大量总体单位的数量特征进行综合,才能体现总体的数量特征。因此,大量性是构成总体的条件。
(3)总体具有差异性。它是指构成总体的总体单位在某一方面性质是相同的,而在其他方面都是不尽相同的。例如上边的例子,如果每一个学生的学习情况都一样,每一个工业企业的生产情况都一样,每一台工业生产设备的状况都一样,我们就无须总体了,只要了解一个学生、一个工业企业、一台工业生产设备,就知道了所有学生的学习情况、所有工业企业的生产情况、所有工业生产设备的状况。因此,差异性是构成总体的前提。
按构成总体的总体单位是否可以计量,总体可以分为有限总体和无限总体。构成一个总体的总体单位无论有多少,只要其数量是有限的,就是有限总体。例如全国人口普查,总体单位多达十几亿人,但它是有限的,是有限总体。构成一个总体的总体单位若是不可数的,即为无限总体。如果没有时间界限,可以把连续生产线的产品产量视为无限总体。绝大多数社会经济现象是有限总体,而在推断统计中,总体是随机变量,也是无限总体。
1.3.2 标志、指标与变量
1.标志
标志是说明总体单位特征的概念,所以也称为单位标志或单位标识。在统计调查中称为调查项目或登记项目。总体单位具有很多特征,在人口调查中,说明每一个人特征的标志有性别、籍贯、文化程度、婚姻状况等;在工业生产调查中,说明每一个工业企业特征的标志有所有制类别、职工人数、固定资产数量、产量、利润额等。
标志的具体表现称为标志值。例如人口调查中,性别这个标志具体可以表现为男或者女,年龄这个标志具体可以表现为1岁、36岁、88岁等。这里“男”“女”“1岁”“36岁”“88岁”等是标志值。
根据标志的具体表现不同,标志可以分为品质标志和数量标志。若一个标志的具体表现只能用文字表示,不能用数字表示,则这个标志为品质标志,品质标志表明总体单位的属性。例如,性别表现为男或女,籍贯表现为北京、上海、成都等,婚姻状况表现为未婚或已婚,所有制类别表现为国有经济、集体经济、股份制经济等。所以,性别、籍贯、婚姻状况、所有制类别等是品质标志。就所研究的问题,有的品质标志只有“是”或者“非”两种表现,则称其为是非标志。例如产品合格与否,每一件产品要么合格,要么不合格;家庭是否有电脑,每一个家庭要么有电脑,要么没有电脑等。产品合格与否、家庭是否有电脑就是是非标志。
若一个标志的具体表现可以取不同的数字,则这个标志为数量标志,数量标志表明总体单位的数量特征。例如年龄可以是1岁、36岁、88岁等,职工人数可以是5253人、10234人、103人等,固定资产可以是9877万元、15789万元、78万元等,利润总额可以是461万元、19.809亿元、122万元等。所以,年龄、职工人数、固定资产、利润总额等是数量标志。
2.统计指标与指标体系
统计指标简称为指标,是反映总体数量特征的概念或概念与具体数值。例如,人口总数、国内生产总值、增长速度、增加值、社会消费品零售总额等是统计指标;名称加数值也是统计指标,例如2022年“年末全国人口141175万人,比上年末减少85万人”;“初步核算,全年国内生产总值1210207亿元,比上年增长3.0%。其中,第一产业增加值88345亿元,比上年增长4.1%;第二产业增加值483164亿元,增长3.8%;第三产业增加值638698亿元,增长2.3%”;“全年粮食产量68653万吨,比上年增加368万吨,增产0.5%”;“全年社会消费品零售总额439733亿元,比上年下降0.2%”;全年实物商品网上零售额119642亿元,按可比口径计算,比上年增长6.2%,占社会消费品零售总额的比重为27.2%。这些名称加数值也是反映我国国情国力的一些统计指标。
统计指标包括指标名称、指标数值、计量单位三个要素。指标名称是现象数量特征的内涵和外延,反映指标的经济含义、时间范围和空间范围。指标数值是现象数量的规模大小、水平高低、相对程度等。计量单位是现象数量的衡量尺度。
按表现形式,统计指标可以分为总量指标、相对指标和平均指标;按反映现象的数量特点,统计指标可以分为数量指标和质量指标,数量指标是反映现象总规模、总水平或总数的指标,质量指标是反映现象相对水平或工作质量的指标。统计指标的两种分类的关系如下:
社会经济现象是复杂的、多种多样的,其数量表现和数量关系不是一两个指标就能够反映的,因为单个指标的作用是有限的,一个统计指标只能反映总体某一方面的数量特征,要能全面反映总体的数量特征,就需要若干个既相对独立又相互联系的统计指标。若干个有联系的统计指标构成的有机整体就是统计指标体系。
统计指标体系分为基本统计指标体系和专题统计指标体系两大类。基本统计指标体系反映经济和社会发展基本情况,比如,一个国家的人口总数、国土面积、国内生产总值等;专题统计指标体系反映某一经济或社会现象的情况,比如,为了反映全国或地区的经济效益而设置的国民经济效益指标体系,为了反映全国或地区的固定资产投资分布、利用和效益而设置的固定资产投资指标体系等。
指标与标志有密切的联系,指标数值总是汇总标志值或总体单位得到的,比如,把各个工业企业的增加值和企业个数汇总就得到反映工业企业生产情况的重要指标——工业增加值和工业企业总数。但是,与标志有可以用数量表示的数量标志与不可以用数量表示的品质标志之分不同,任何统计指标都可以用数量表示,也就是说统计指标都是可量的,而标志未必都是可量的。品质标志的表现不是数值,只有对品质标志的具体表现所对应的单位进行汇总,才是指标。例如,性别的具体表现为男或女,按性别进行汇总得到男性人数、女性人数,性别比例、男性人数占全部人数的比重等才是指标。
3.变量
统计中,称说明现象某种数量特征的概念为变量。按照这个定义,指标名称和标志都是变量,如国内生产总值、工资总额、学生人数、性别可以取不同的值或不同的表现,它们就是变量。
变量的具体表现是变量值,即统计数据,如国内生产总值744127亿元、工资总额3000万元、学生人数21000人、性别男等。
变量可以分成定性变量和定量变量两类。
定性变量是具体表现为文字的变量,只能以类别分开,所以也称为分类变量、属性变量。例如,“性别”的具体表现是“男”“女”;“满意度”的具体表现是“非常满意”“满意”“基本满意”“不满意”“非常不满意”等。对于定性变量,通常关注的是每一个类别的数量和所占比例。
定量变量是可以取具体数值的变量,所以也称为数值变量。例如,“成绩”可以是60分、75分、92分等;“国内生产总值”分别为1143669.7亿元、1210207亿元等。数值变量有离散变量和连续变量之分。
离散变量是可以一一列举的量,其取值都是整数,如“机构数”“学生人数”“设备台数”等。离散变量一般通过计数得到。
连续变量是不能一一列举的量,任意两个变量值之间都有无穷多个变量值,如“重量”“长度”“零件尺寸误差”等。连续变量一般通过测量得到。
1.3.3 统计数据的分类和计量尺度
统计数据是对客观现象进行计量的结果。任何现象都有其属性或数量表现,现象之间都有内在的关系,这些属性或数量表现及内在关系的表现,就是统计数据。
1.统计数据的分类
按是否可以直接用数字表示,统计数据可以分为定性数据和定量数据。品质标志的具体表现是定性数据,反映现象的类别和等级。数量标志的具体表现和统计指标数字是定量数据,反映现象的规模、水平、相对程度等。
按是否经过加工处理,统计数据有原始数据和综合数据之分。原始数据产生于统计调查阶段,主要是说明总体单位特征的数据,比如,性别男、女,月工资为3860元、6410元等;综合数据则是经过统计整理后形成的,用以说明总体特征的数据,即统计指标数字,如2022年我国国内生产总值1210207亿元。按时间状况,统计数据可以分为截面数据和时序数据。截面数据也称为静态数据,是同一时间点或时间段的数据,如全国2022年国内生产总值、年末的人口等;时序数据也称为动态数据、时间序列,是不同时间点或时间段的数据序列,如我国历年的国内生产总值、历年年末的人口等。
2.统计数据的计量尺度
(1)定类尺度(类别尺度)。
定类尺度是按某种属性对现象进行平行分组。分组后所形成的数据,称为定类数据、类别数据或列名数据。比如按性别把总体分成男和女两类;按企业登记注册类型,把企业分为内资企业、港澳台商投资企业和外商投资企业三大类。“男”“女”“内资企业”“港澳台商投资企业”和“外商投资企业”就是定类数据。为了便于计算机处理,人们可以用0、1、2或A、B、C代表这些数据,但是它们只是数据的代码,彼此之间没有数量上的关系和差异。
定类数据没有优劣、大小、顺序之分,谁排前、谁排后,对统计研究没有实质性影响。定类数据只能区分事物的同类或不同类,所以其数学特性是“等于(=)”和“不等于(≠)”,其计算功能是能够计算每一个类别的次数和比重、众数和异众比,进行列联表分析和χ2检验等。
(2)定序尺度(顺序尺度)。
定序尺度是按现象的某种属性对现象进行有等级差异或顺序差异分组。分组后形成的数据称为定序数据、顺序数据。比如按“满意度”把总体分成“非常满意”“满意”“基本满意”“不满意”“非常不满意”五类。“非常满意”“满意”“基本满意”“不满意”“非常不满意”就是定序数据。定序数据也可以用1、2、3或A、B、C等表示,但也仅仅是它们的代码而已。
显然,“非常满意”好于“满意”“满意”好于“基本满意”等,它们不是平行的,是有序的。定序数据不仅可以区分事物的同类或不同类,还可以区分事物的好坏,所以其数学特性除了“等于”和“不等于”外,还有“大于”和“小于”。但是它不能具体测定类别之间的差异,不能具体说一个类别大于或小于另一个类别多少,除了包含定类数据的功能外,其还可以计算中位数、分位数、等级相关等,但是不能进行加、减、乘、除运算。
定类尺度和定序尺度在对现象总体分类时,必须符合穷尽和互斥的原则,即在分类时必须包括总体的所有个体,使每一个个体或单位都能归入其中一类,而且只能归入一类,不能遗漏、不能重复。
(3)定距尺度(间隔尺度、区间尺度)。
定距尺度是对现象类别或顺序之间的间距进行的测度。这样得到的数据称为定距数据、区间数据、间隔数据。定距数据之间的差是固定不变的,并且没有一个通常的零点,定距数据之间的比值是没有意义的。比如,如表1-1所示的美国女装的标准尺码就是定距数据。女装尺寸每增加2英寸[12],尺码就大一号,但是,绝对不能说16号女装是8号女装的两倍大。又如温度也是间隔数据,10℃比8℃高2℃、20℃比18℃高2℃,高出的温度一样,但是,20℃的天气绝不是比10℃的天气热一倍,0℃是温度的一种状况,绝不代表温度不存在。
表1-1 美国女装的标准尺码(单位:英寸)
资料来源:林德,马歇尔,沃森.商务与经济统计方法:全球数据集:英文版·原书第13版[M].冯燕奇,叶光,聂巧平,译.北京:机械工业出版社,2009.
(4)定比尺度。
定比尺度是对现象进行观测计数或计算,这样得到的数据是定比数据。定比数据是对事物精确的度量,有真正的零值。比如,两人某门课考试成绩均为90分,意味着两人考试成绩没有差别;成绩95分比80分高15分;体重为60千克的人比体重为30千克的人重1倍。定比数据除了具有定类数据、定序数据和定距数据的全部计算功能外,还具有加、减、乘、除运算功能,比如可以汇总,可以计算各种特征值、相对数以及进行更多的定量分析。比如,某校学生人数21000人,等于各个专业学生人数之和;2022年末,广义货币供应量(M2)余额266.4万亿元,同比增长11.8%;人民币各项存款余额258.5万亿元,比上年末增加26.3万亿元;人民币各项贷款余额214.0万亿元,比上年末增加21.3万亿元。
按计量尺度所分的上述四类数据是有层次的,后一层次的数据包含了前一层次的全部信息内容,能够转换为前一层次的数据,但反之则不然,即定比数据包含了定类数据、定序数据和定距数据的全部信息内容,也可以转换成定类数据、定序数据和定距数据;定序数据包含了定类数据的全部信息内容,可以转换成定类数据,但是不能转换成定距数据、定比数据,定距数据不能转换成定比数据。定距尺度和定比尺度得到的数据都是定量数据。定距数据只能计算差距,不能计算比率;定比尺度是最高级的计量层次,具有加、减、乘、除的运算功能[13]。图1-2是四个计量尺度的特征。
图1-2 四个计量尺度的特征