1.5 数据分析常用模块库
数据分析的常用模块库有NumPy、Pandas、Matplotlib、Scikit-Learn等。
1.NumPy模块
NumPy是一个运行速度非常快的数学模块,是进行科学计算和数据分析时必不可少的基础模块。NumPy模块不仅支持大量的维度数组与矩阵运算,还针对数组运算提供大量的数学函数模块。例如:
强大的N维数组对象ndarray()。
成熟的(广播)函数库。
整合C/C++/Fortran代码的工具。
实用的线性代数、傅里叶变换和随机数生成函数。
2.Pandas模块
Pandas是一个开源且通过BSD许可的模块,主要为Python提供高性能、易于使用的数据结构和数据分析工具。
Pandas的数据结构中有两大核心,分别是Series与DataFrame。其中,Series是一维数组,和NumPy中的一维数组类似。这两种一维数组与Python中的基本数据结构List很相近,Series可以保存多种数据类型的数据,如布尔值、字符串、数字类型等;DataFrame是一种二维的表格型数据结构,类似Excel表格。
3.Matplotlib模块
Matplotlib是一个Python绘图模块,不仅可以绘制2D图表,还可以绘制3D图表。其名称中,“plot”表示绘图,“lib”表示它是一个集合。
使用Matplotlib绘制图表非常简单,只需几行代码即可快速绘制条形图、折线图、散点图、饼图等。matplotlib.pyplot子模块提供了类似MATLAB的界面,尤其是与IPython结合使用时。其每个函数都可以对图形进行更改,如创建图形,在图形中创建绘图区域,绘制线条样式,设置字体属性、轴属性等。
4.Scikit-Learn模块
Scikit-Learn是一个简单、有效的数据挖掘和数据分析工具,可以在各种环境下重复使用。Scikit-Learn是基于NumPy、SciPy和Matplotlib的,它将很多机器学习算法进行了封装,即使是不熟悉算法的用户,也可以通过调用函数的方式轻松建模。其中的sklearn模块可以实现数据的预处理、分类、回归、PCA降维、模型选择等,是数据分析中必不可少的一个模块。