1.1 为什么要学习统计学
1.1.1 感悟统计
统计是社会认识的最有力的武器之一。
——列宁
某些人不喜欢统计这个名词,但我却发现其中充满了乐趣……它们处理各种复杂现象的能力是非凡的,它们是追求科学的人从荆棘丛生的困难阻挡中开辟道路的最好工具。
——英国著名生物学家、统计学家高尔顿
你们借助于发展成熟的理论和统计分析来创造经济政策与计划的合理基础的贡献,涉及重大科学突破……我很荣幸地向你们转达瑞典皇家科学院的祝贺,并且请你——丁伯根教授,从国王陛下手中接受1969年度阿尔弗雷德·诺贝尔经济学奖金。
——爱立克·伦德伯教授在第一届诺贝尔经济学奖颁奖大会上的讲话[1]
在终极的分析中,一切知识都是历史;在抽象的意义下,一切科学都是数学;在理性的基础上,所有的判断都是统计学。
——C. R.劳《统计与真理》[2]
好的数据确实胜过逸闻。比起逸闻和光大声嚷嚷预测未来,数据要客观得多。统计和其他的公开论述比起来,它根据事实且较科学又较理性。对于争议性的议题,统计研究应该比其他大部分证据受到更多的重视。
——戴维·S.穆尔[3]
学者不能离开统计而研究,政治家不能离开统计而施政,事业家不能离开统计而执业。
——我国著名经济学家、人口学家马寅初
众所周知,《红楼梦》一书共120回,自从胡适的《红楼梦考证》出版以来,一般都认为前80回为曹雪芹所写,后40回为高鹗所续;然而长期以来这种看法一直都饱受争议。从1985年开始,复旦大学的李贤平教授带领他的学生从统计角度做了考证。一般认为,同一情节大家描述得都差不多,但由于个人写作特点和习惯的不同,所用的虚词是不一样的。他们创造性的想法是将120回看成120个样本,然后确定与情节无关的47个虚词(之、其、或、亦……呀、吗、咧、罢……可、便、就等)出现的次数(频率),作为《红楼梦》各个回标志,利用统计方法果然能将120回分成两类,即前80回为一类,后40回为一类,很形象地证实了《红楼梦》不是出自同一人的手笔;之后又进一步分析前80回是否为曹雪芹所写,又找了曹雪芹的其他著作,做了类似计算,结果证实了用词手法完全相同,断定前80回为曹雪芹一人的手笔,而后40回不是高鹗一个人所写。这个论证在红学界轰动很大,使红学界大为赞叹。
——红楼梦作者考证[4]
1.1.2 统计学是一门应用范围很广的科学
统计学是一门研究领域非常丰富、应用范围非常广泛的科学。我们正处于信息经济时代,世界充满了数据,数字化信息随处可见。
无论我们是否学过统计学、懂得统计学,我们生活中的每一天都会遇到大量有关统计学的问题,新闻和大众媒体每天都在表现统计数字。例如每年的《政府工作报告》总是要列举大量的水平、比例、结构、速度等数据,说明国民经济的发展状况;统计部门每月、每年都要公布居民消费价格指数(CPI),反映一定时期内城乡居民所购买的生活消费品和服务项目价格变动趋势与程度。确实,用“好”“比较好”“很好”“非常非常好”“比以往任何时候都好”等这样的比较级或最高级的词语来反映国家的经济形势就太苍白、太空洞了,而2022年我国现价国内生产总值达到1210207亿元,按可比价算比上年增长3.0%[5],比1978年增长43倍多,对世界经济增长的贡献率为30%左右;2022年全国居民人均可支配收入36883元,比上年增长5.0%,扣除价格因素实际增长2.9%。全国居民人均可支配收入中位数31370元,比上年增长4.7%等。这样的统计数据实实在在并具体地反映了我国改革开放以来至2022年取得的成就。
宇宙间万事万物,林林总总,各种事物可依特定的性质予以归类,形成各种群体——现象总体。无论是自然的、实验的,还是社会的、经济的,凡是可以用数据表现的总体,都可以作为统计的研究对象。在很多学科中,统计学都是必需的基础知识,统计方法和统计思想渗透到社会、经济、自然、科技、生活的每一个角落,甚至一篇文章是否有质量,能否在高级别的杂志上发表,很大程度上要看其统计数据和统计方法应用是否正确。统计学不仅在社会经济领域得到发展,而且一些过去与数量毫无联系的学科,如政治学、法学、历史学、艺术学、考古学等,都在对应用统计方法技术进行研究和实践。
有人说统计学是21世纪最有前途的学科之一。因为从20世纪后半个世纪起,人文社会科学的发展与统计学的关系越来越紧密,统计学的发展已经渗透到人文社会科学的许多领域,并由此产生许多新的学科,如人口统计学、历史统计学、教育统计学、心理统计学、社会统计学等。从本质上讲,信息经济所依赖的不只是信息处理手段的先进性,更重要的是信息收集、整理的准确性,而准确的信息收集、整理离不开统计学的发展;在一些发达国家,统计学是大学里最受重视的学科,统计学发展得如何是衡量某一大学学术水平的标志。在这些国家,统计学是强势学科。
统计分析涉及大量数据,所以统计人员、利用统计数据的人员、研究人员总是利用计算机软件进行数据处理和计算。统计分析中能够使用的软件很多,本书使用最为普遍的软件是Excel,少数不能用Excel软件处理的分析,我们使用SPSS软件。
1.1.3 大数据与统计学
早在1980年,阿尔文·托夫勒便在《第三次浪潮》一书中,将大数据热情地赞颂为“第三次浪潮的华彩乐章”。
2001年,美国统计学教授威廉·克利夫兰首次将数据科学作为一门独立的学科,认为数据科学是统计学领域扩展到与以数据作为先进计算对象相结合的部分。目前世界上90%以上的数据是最近几年才产生的。
“大数据”是伴随日益普及的网络行为而产生的,是以多元形式、多来源搜集的非传统结构和意义的庞大数据组。不仅阿拉伯数字是数据,凡是可以被数据化的信息载体,比如文本、图片、视频和音频等,都是数据。
大数据时代已经来临,在众多领域掀起变革的巨浪,产生巨大影响。
2014年,大数据首次写入政府工作报告,逐渐成为各级政府关注的热点;2015年9月,国务院发布《促进大数据发展行动纲要》,大数据的发展又上了一个台阶;2019年10月,党的十九届四中全会首次将数据列入新型生产要素;2021年3月发布的“十四五”规划中,大数据标准体系的完善成为发展重点;2022年12月,《中共中央 国务院关于构建数据基础制度更好发挥数据要素作用的意见》发布,以数据产权、流通交易、收益分配、安全治理为重点,系统搭建了数据基础制度体系的“四梁八柱”,2023年2月,中共中央、国务院印发了《数字中国建设整体布局规划》,会议根据国务院关于提请审议国务院机构改革方案的议案,组建了国家数据局,将数据要素放到了一个更为宏大的“数字中国”图景中。
统计分析涉及大量数据,通过数据来研究规律、发现规律,贯穿了人类社会发展的始终。目前发展大数据技术是国家重大战略需求,也是统计学、数据科学、信息科学和管理科学等学科的国际前沿。
大数据时代,信息匮乏的危机让位给信息甄别的困难,数据的规模、类型、结构和增长速度发生了很大的变化,如此背景下,统计方法和统计思想成为每个人的必修课。统计学依然是数据分析的灵魂,它会引领我们合理分析与利用大数据资源。
数据太多可能会导致信息量变得巨大,反而增加寻找到规律的难度,从而需要科学的设计来获得数据,达到认知自然现象和社会现象的变化规律,或者用来检验已经存在的理论假设的目的。这正是统计学研究的内容。以大数据为研究对象,将数据转化为知识、挖掘数据内在规律、通过数据发现并解决实际问题、预测可能发生的结果等是研究大数据的任务,而这必然离不开统计学。
统计学为了适应数据量以指数速度的不断增大,产生了统计大量观察法、分组法、综合指标法、归纳推断法、模型方程法、数据挖掘法等,并且借助计算机以及其他软件的程度也越来越深。从统计学产生以来,统计学围绕如何收集、整理和分析数据,构建了统计学的方法体系,可通用于自然现象、社会经济现象和科学实验等领域。大数据的4V特点,即volume(大量)、velocity(高速)、variety(多样)、value(价值),使数据收集及时,能满足各式各样的需求,提升统计的时效性。同时传统数据分析与处理的统计学理论和分析方法也要研究及发展,才能为大数据发展和应用提供理论与方法支撑。
在大数据时代统计越显重要,并会得到更大的发展。这就印证了英国作家、历史学家韦尔斯(H. G. Wells)曾经说的“统计思维总有一天会像读与写一样,成为一个有效率公民的必备能力”“像今天有能力的公民能读会写一样,将来会有一天要求有能力的公民必须会计算,而且能够利用平均值、最大值和最小值。可以预期,这样的时代已经不远了。”[6]