上QQ阅读APP看书,第一时间看更新
第1章 准备工作
1.1 本书内容
本书关注的是利用Python操作、处理、清洗和操作数据时的基本要点。我的目标是提供一份Python编程语言以及Python面向数据的类库生态系统和工具的指南,该指南将帮助你成为一个高效的数据分析师。尽管“数据分析”出现在书名里,但本书将明确专注于Python语言的编程、类库、工具而不是数据分析方法论。这就是你需要的Python数据分析编程。
1.1.1 什么类型的数据
当我说“数据”时,我想表达的准确含义是什么?主要的关注点是结构化数据,这个有意义的术语包含了众多常见的数据形式,例如:
· 表格型的数据,每一列可能会包含不同的类型(字符串、数值、日期或其他)。这类数据包含了大部分类型的数据,它们通常存储在关系型数据库或者由制表符、逗号分隔的文本文件中。
· 多维数组(矩阵)。
· 由键位列关联的多张表数据(对于SQL用户来说就是主键或外键)。
· 均匀或非均匀的时间序列。
以上是一份大致完整的清单。但该清单有时并不完全准确,很多数据集可以转换为一种更适合分析、建模的结构形式。如果不进行转换,从数据集中提取特征形成一种结构形式也是可行的。例如,一个新闻文章的数据集可以被处理为一个词频表,然后再用于情感分析。
大部分表格程序(比如微软Excel,或许是全世界应用最广泛的数据分析工具)的用户对这些类型的数据并不陌生。