1.2 什么是统计
1.2.1 统计的含义
“统计”是社会经济生活中经常使用的名词。在英语中单数statistic译为中文是统计学,复数statistics译为中文是统计,是指描述事物属性的实际数据,即统计数据。“统计”一般具有三种含义:统计工作、统计资料和统计科学。
1.统计工作
统计工作即统计实践活动,是人们为了说明所研究对象的某种数量特征和数量规律性,而对该现象的数据进行收集、整理与分析的活动。例如,为了获得粮食产量而进行的抽样调查活动,为了获得全国人口的数量和构成等而进行的人口普查活动等。
统计实践活动有很久远的历史,早在公元前2000多年,统治者为了满足征兵、征税、管理奴隶的需要,就有了人口、土地、财产的统计活动。《通典》记载了我们历史上最早的统计数据:“禹平水土,为九州”,“九州之地凡24388024顷,人口13553923人”。到中世纪,西欧各国都有了人口、军队、领地、财产等的统计活动。
2.统计资料
统计资料即统计数据,是通过统计工作所获得的能够说明现象总体某种特征的数据,是统计实践活动的成果。例如,2022年我国现价国内生产总值为1210207亿元,按可比价计算比2021年增长3.0%等,这些数据就是统计部门和广大统计工作者辛勤劳动得到的能够说明我国经济发展水平的统计资料。统计数据最集中、最系统地反映在各种统计年鉴中,如《中国统计年鉴》《国际统计年鉴》《中国经济年鉴》《中国金融年鉴》《中国物价及城镇居民家庭收支调查统计年鉴》等。《中国统计年鉴》涵盖了国民经济所有主要数据,包括国民经济核算、各行业生产、就业、人民生活、对内对外贸易、社会活动、环境等方面的数据。随着互联网技术的发展和普及,网络提供的数据成为统计数据主要来源已是趋势,如中经网统计数据库、中宏产业数据库、万方商务信息数据库、EPS全球统计数据库、CSMAR期货股票分析高频数据库等。一些国际组织也有自己的统计数据库,如联合国、世界银行、国际货币基金组织等。统计数据还可以从经济分析报告、专著里获得,如《经济蓝皮书:2023年中国经济形势分析与预测》,一些期刊,如《中国统计》里刊登的最新月度数据等也是统计数据的来源渠道。
3.统计科学
统计科学即统计学,是一门研究收集数据、表现数据、分析数据、解释数据,从而认识现象数量规律、帮助人们更有效地进行决策的方法论科学。统计学源于统计实践活动,是对统计实践活动的理论概括和总结,又用于指导统计实践活动。
收集数据需要对客观现象做周密细致的调查;表现数据需要对调查得到的数据加以整理,使之成为反映现象总体的条理化、系统化的数据;分析数据需要用科学的方法从数据中得出反映现象本质数量规律性的结果;解释数据需要用有关知识对数量规律性做出说明。所有这些就构成了统计学的研究内容。
统计学是一门为定量分析提供方法的方法论学科,因此它是一门应用性很强的学科,几乎与所有的学科领域都有着或多或少的联系,凡是有数据的地方,就有统计学的用武之地。虽然统计学为其他学科提供研究数量规律性的方法,但是统计学绝不是万能的,各个学科数量规律的解释还需要由各学科的理论来完成。比如,大量观察发现:我国2021年人口的性别比,从0~4岁组的110.37,到70~74岁组的94.08,再到95岁以上组的43.20[7],随着年龄的增大呈下降趋势。形成这样的比例和趋势的原因,不是统计学能够解释的,要用遗传学、医学甚至社会学的理论来解释。又如,大量观察表明,吸烟者患肺癌的比例大于不吸烟者患肺癌的比例,吸烟是否会导致患肺癌?为什么会导致患肺癌?这些都是医学研究的问题。
尽管统计学不能解决各门学科的所有问题,但是,各门学科离不开统计学,统计学的理论和方法在各门学科的研究中会发挥越来越重要的作用。
作为一门科学,统计学初创于17世纪中叶至18世纪初,当时主要的学派有政治算术学派、国势学派和社会统计学派。
政治算术学派的创始人是英国人威廉·配第。配第首先提出了用数量科学地研究社会经济现象的方法——政治算术。他的名著《政治算术》(1676)就是指数字和统计学方法,在序言中配第明确指出:“我进行这项工作所使用的方法,在目前还不是常见的。因为和只使用比较级或最高级的词语以及单纯做思维的论证相反,我却采用了这样的方法(作为我很久以来就想建立的政治算术的一个范例),即用数字、重量和尺度的词汇来表达我自己想说的问题,只进行诉诸人们感官的论证和考察在性质上有可见的根据的原因。”他还说,“用数字、重量和尺度(它们构成我下面立论的基础)来表示的展望与论旨,都是真实的,即使不真实,也不会有明显的错误……因为,能够证明为确实的东西,也就是确实的。”他在研究社会经济现象的规律时,还应用推算法、分组法,编制了原始数据的图表,计算了一系列的总量指标、相对指标和平均指标,是最早估算国民收入的人。但是配第始终没有用“统计学”三个字,所以政治算术学派是有统计学之实,而无统计学之名。
国势学派的创始人是德国人赫尔曼·康令。1660年以后,康令开始定期地、系统地用对比的方法讲授国家比较方面的知识。他不仅讲述事实,而且试图探讨事实的因果关系。他把这个课程叫作“欧洲最近国势学”,于是“国势学”由此产生。1660年,他首次在印刷品上使用statistik,这个单词的前半部state源于国家政策,是指政府部门记录人口出生和死亡信息的工作。当时,康令的学说在学术界产生了很大的影响,德国大学中的许多教授都称赞并追随他的学说。其中,戈特弗里德·阿亨瓦尔发扬了康令的学术思想,把这门课程定名为“统计学”,开始有了“统计学”这个名称。但是国势学派只是对各国情况做一般性的比较记述,如“某国人口众多”“土地辽阔”之类,而没有进行数量研究和描述。所以国势学派是有统计学之名,而无统计学之实。
近代统计学产生于18世纪末至19世纪末,当时主要的学派是数理统计学派和社会统计学派。数理统计学派的代表人物是比利时著名的统计学家、数学家、物理学家、天文学家和人类学家兰贝特·凯特勒。他融会贯通各家各派的统计思想,博采众长,把德国的国势学、英国的政治算术,以及意大利、法国的古典概率论加以协调、统一、改造和融合为具有近代意义的统计学,把统计学推向了新的发展阶段。他将统计方法用于研究人类,促进了人口统计学的发展;他提出“平均人”理论,用平均值作为实际值的一种代表值;他用大量统计数据对犯罪问题的研究,被人称为“道德统计”;他创建了“国际统计会议”组织,促进了国际统计交流与合作。可以说凯特勒是古典统计学的终结者,近代统计学的先驱者,在统计学发展史上起着承先启后、继往开来的作用。
19世纪下半叶,德国统计学界在英国政治算术学派的影响下,努力使统计学成为一门用统计数量表达社会经济现象及其规律的社会科学,从而促进社会统计学派逐渐形成。该学派的先驱者K.G.A.克尼斯把统计学的性质定义为“具有政治算术内容的社会科学”。他在《作为独立科学的统计学》(1850)一书中,提出了“国家论”与“统计学”科学分工的主张,认为国家论是用文字记述的国势学的科学命名,统计学则是用数值研究社会经济规律的政治算术的科学命名。社会统计学派的创始人G.V.迈尔在《社会生活中的规律性》(1877)一书中提出,统计学是通过对数据的大量观察,对人类社会生活的状态及其产生的规律做有系统的说明与研究。他明确指出统计学的研究对象是社会经济现象的规律,认为脱离规律性的研究就不能获得科学的认识,统计学不仅要确定事实数量的记述,还必须研究其规律性。另一位代表人物德国统计学家E.恩格尔提出了统计调查、整理和分析三阶段的统计方法。他通过对英国、法国、德国和比利时等国的工人家庭进行调查,撰写了《比利时工人家庭的生活费》(1895)一书,提出了著名的恩格尔定律,即一个家庭(或个人)的收入越低,其食品支出在收入中所占比例就越高;反之,其比例就越低。恩格尔系数等于(食品支出总额/收入)×100%。
现代统计学一般认为从19世纪末20世纪初开始,其标志是推断统计学的问世。英国生物学家、统计学家卡尔·皮尔森于1894~1895年提出正态分布、矩形分布、J形分布、U形分布等13种曲线及其方程式。他的这一研究成果,打破了以往次数分布曲线的“唯正态”观念,推进了次数分布曲线理论的发展和应用,为大样本理论奠定了基础;他提出了著名的统计量卡方(χ2)和卡方检验;他还提出了标准差的概念及其符号σ,发展了相关回归理论等。英国统计学家威廉·西利·戈塞特于1908年在《生物统计学》上以“Student”的笔名发表了《平均数的概率误差》,创立了t分布,开创了小样本理论的先河,解决了他多年来使用小样本中许多悬而未决的问题。
统计学的发展史表明,随着社会的发展与实践的需要,统计学越来越多地依赖和吸收数学方法,使统计方法不断丰富和完善,不断发展和演变,成为研究社会经济现象、自然技术现象数量方面的方法论科学。目前,统计学越来越多地向其他学科领域渗透,形成各种以统计学为基础的边缘学科,随着统计学应用日益广泛和深入,特别是借助电子计算机,统计学所发挥的功效必将日益增强。
1.2.2 统计学的类型
由于统计学是一门应用非常广泛的科学,所以其内容体系也非常丰富。统计学可以做如下的分类:
理论统计学是把统计研究对象一般化、抽象化后,形成的可以应用于各种统计活动的一般统计理论和方法。本书的内容属于理论统计学。
统计学是一门收集和分析数据的科学,在社会科学和自然科学的领域中,都需要通过数据分析来解决实际问题,因而,统计方法的应用几乎扩展到了所有的科学研究领域。
应用统计学是统计的一般理论和方法应用到各个领域形成的科学,如国民经济统计学、货币金融统计学、管理统计学、人口统计学、心理统计学、医学统计学、生物统计学等。
1.描述统计学
描述统计学是关于如何对现象的数据特征进行观测、整理、计量、表述的理论和方法论科学,研究如何取得反映客观现象的数据,并通过图表形式对所收集的数据进行加工处理和显示,进而通过综合概括与分析得出反映客观现象的规律性数量特征。其特点是用从一个总体或样本中收集到的数据,来对这个总体或样本进行描述或得出有关这个总体或样本的结论。例如,全班有50名同学或从全校15000名同学中抽取400名同学,把这50名同学或400名同学的成绩用图、表或特征值(如平均分数、分数的标准差和及格率等)表示出来,从而得出针对该班50名同学或400名同学学习情况的结论。
2.推断统计学
推断统计学也称为统计推断,是关于如何抽取样本并利用样本数据推断总体有关数据的理论和方法论科学。其特点是用从总体中随机抽取的样本数据,得出关于这个总体的结论。例如,从全校15000名学生中,随机抽取400名学生进行学习情况调查。用这400名学生的平均分数、分数的标准差和及格率等推算出全校15000名学生的平均分数、分数的标准差和及格率等,从而得出全校学生学习情况的结论。“你可以将推断统计学看作在样本信息基础上对总体水平的‘最优猜测’”[8]。
3.描述统计与推断统计的关系
描述统计是基础,只有依靠描述统计收集、整理和显示可靠的统计数据并提供有效的样本信息,推断统计才能进行,其关系如图1-1所示。
图1-1 描述统计与推断统计的关系
从描述统计学发展到推断统计学,既反映了统计学发展的巨大成就,也是统计学发展成熟的重要标志。
1.2.3 统计的特点
1.数量性
统计的数量性特点是指统计总是用数据作为语言来表述事实。统计运用科学的方法收集、表现、分析和解释数据,并用统计指标表明所研究现象的规模、水平、比率、依存度、发展变化趋势和规律等。
但是统计不研究抽象的数量,它是在质的规定性下研究有具体内容的数量。例如,要说明一国的经济状况,需要统计国内生产总值数据,但是只有明确了国内生产总值的概念和范围,才能得到国内生产总值数据;只有规定了工资总额的内涵和外延,才能得到工资总额数据。
2.总体性
统计的总体性特点是指统计不是研究个别事物的数据,而是研究大量个别事物构成的现象整体的数据,只有这样才能消除偶然因素的影响,达到认识现象的数量规律的目的。例如,劳动力资源统计,不是要了解个别劳动力的情况,而是要反映一个国家或地区的劳动力资源总数及其构成、就业总数及其分布等。
但是,统计是从认识个别事物入手来认识现象整体的数量特征的。例如,要了解劳动力资源总数及其构成、就业总数及其分布等,必须从每一个劳动力开始,对其性别、年龄、文化程度、职业等进行调查登记,然后经过分类汇总计算,才能了解劳动力资源的整体情况。
1.2.4 统计研究的基本方法[9]
统计研究的方法众多,归结起来主要有以下几种。
1.大量观察法
大量观察法是指为了对现象整体的数量规律有所了解,必须对所要研究现象的全部或足够多的个体进行调查的方法。只有通过大量观察法才能消除偶然的、次要的因素的影响,以反映主要的、共同起作用的因素所呈现的规律性,达到对现象总体数量规律的认识。例如,就个别家庭来说,可能有的男性人口多些,有的女性人口多些,似乎没有什么规律,但是如果观察成千上万个家庭,就会发现人口的性别比例大约为1:1;又如掷硬币和掷骰子,每掷一次出现哪一面或哪个点子是不确定的,但是当我们掷很多次硬币或骰子时,就会发现掷硬币出现正面和反面的可能性几乎各为50%,掷骰子出现1~6点的可能性几乎各为1/6。
大量观察法实际上不是指一种具体方法,而是一种统计思想方法,强调观察的个体要充分多,只有这样才能将现象的个别偶然差异充分抵消,从而准确地揭示出所研究现象的数量特征和规律性。否则,就可能以偏概全,得到片面的或错误的结论。
2.统计分组法
统计分组法是指根据统计研究的需要,按一定的标志把总体分成若干组别的方法。通过统计分组,突出组与组之间的差异、抽象组内各单位差异,以便划分现象的类型、反映总体的内部结构和现象之间的相互关系。统计分组法贯穿于统计研究和统计工作的全过程。
3.综合分析法
综合分析法是指运用各种经过科学分类汇总的综合指标和各种分析方法,如时间数列分析法、指数分析法、相关回归分析法等,反映现象总体在一定时间、地点、条件下的规模、水平、对比关系、集中趋势、差异程度、依存关系、发展趋势和变化规律等。
4.归纳推断法
归纳推断法是指由个别事物的事实,概括为现象总体的一般特征的推理方法。归纳推断可以使我们从具体的事实中得到一般的知识,扩大知识领域,加深认识程度。社会经济现象是复杂的,常常会出现这样的情况:我们所观察的只是部分单位或有限单位事实,而我们需要分析的却是现象总体的全部单位的事实,这就需要我们从部分单位的事实归纳推断出现象总体的数量特征。例如,调查万分之一的城市居民户的收入水平,推断出城市全部居民户的收入水平;调查1‰的农田的产量,推断出上万亩农田的产量。