利用Python进行数据分析(原书第2版)
上QQ阅读APP看书,第一时间看更新

第2章 Python语言基础、IPython及Jupyter notebook

2011年到2012年,我写了本书的第1版,当时并没有多少Python数据分析资源。这是个蛋生鸡、鸡生蛋的问题:很多我们现在觉得理所当然的库,比如pandas、scikit-learn和statsmodels在当时并不成熟。2017年,出现了大量关于数据科学、数据分析以及机器学习的文献,补充了先前仅面向计算机科学家、物理学家和其他研究领域的专业人员的通用科学计算工作。此外,还出现了大量非常优秀的书籍,这些书主要是关于Python编程语言自身以及如何成为高效的Python软件工程师。

本书是介绍如何使用Python处理数据的,我认为独立地概述一下Python内建数据结构的特性以及数据操作方面的库是很有必要的。因此,本章及第3章将介绍一些基本信息和知识,这些信息足以确保你读懂本书的后续章节。

在我看来,在Python中高效地分析数据并不需要完全精通如何利用Python语言开发软件。推荐使用IPython命令行和Jupyter notebook来实验代码示例,以及探索各种类型、函数和方法的文档。尽管我已经尽量按照增量方式来展现书中的内容,但可能还会偶尔遇到一些没有完全介绍的内容。

本书的大部分内容是关于如何基于数据表进行分析以及用于大型数据集的数据准备工具。为了使用这些工具,通常必须先把凌乱数据整理为更好看的(或者说更结构化的)表格形式。幸运的是,Python就是一个将数据快速规整为合理形式的理想语言。使用Python语言的能力越强,准备待分析数据集的工作就越轻松。

本书的一些工具最好是通过IPython或者Jupyter会话来探索。一旦学会了如何使用IPython和Jupyter来探索数据,我推荐你实验本书的示例并且可以再实验尝试一些别的内容。和其他键盘控制的命令行环境一样,练就常用命令的肌肉记忆也是学习曲线的一部分。

有一些Python中的概念在本章并未提及,比如类和面向对象编程,你会发现这些概念其实在Python数据分析中也是有用的。

为了加深你的Python知识,建议通过Python官方教程或者一本优秀的通用Python编程书籍来补充本章没有介绍的内容。推荐的入门书籍包括:

·《Python Cookbook》(第3版),作者为David Beazley和Brian K. Jones(O'Reilly)

·《Fluent Python》,作者为Luciano Ramalho(O'Reilly)

·《Effective Python注1:本书中文版已由机械工业出版社引进出版,书号是:978-7-111-52355-0。——编辑注,作者为Brett Slatkin(Pearson)