数据科学中的实用统计学(第2版)
上QQ阅读APP看书,第一时间看更新

第 1 章 探索性数据分析

本章重点介绍所有数据科学项目中的第一个步骤:探索数据。

经典统计学关注的几乎只有推断。推断有时候是一系列非常复杂的过程,目的是由小样本得出与大型总体相关的结论。1962 年,约翰•图基(见图 1-1)发表了一篇影响深远的论文“The Future of Data Analysis”[Tukey-1962],对统计学进行了一场革新。他创建了一门新的科学学科,称为数据分析,并将统计推断作为其中的一个组成部分。图基融合了工程学和计算机科学[他创造了 bit(比特)和 software(软件)这两个术语,其中 bit 是 binary digit(二进制数字)的缩写],他的理念也一直延续下来,并成为数据科学基础的一个重要组成部分。1977 年,随着图基经典著作《探索性数据分析》[Tukey-1977] 的出版,探索性数据分析这个领域正式建立。在书中,他使用了简单的统计图(如箱线图、散点图)以及一些摘要统计量(均值、中位数、分位数等)来描绘一个数据集。

{%}

图 1-1:约翰•图基,杰出的统计学家,他在 50 多年前提出的思想奠定了数据科学的基础

随着计算能力的提高以及一些功能强大的数据分析软件的成熟,探索性数据分析迅速发展,现在已经远远超出了它的初始范围。这门学科发展的主要驱动力在于新技术的快速发展、更多和更大规模数据的使用,以及定量分析在各种学科中的广泛应用。斯坦福大学的统计学教授大卫•多诺霍在读大学时曾经是图基的学生,他在新泽西州普林斯顿举行的图基百年纪念活动中做了一次演讲,并在此基础上发表了一篇著名的文章 [Donoho-2015],追溯了数据科学的起源,并将其归功于图基在数据分析领域所做的开创性工作。