零基础入门Python数据分析与机器学习
上QQ阅读APP看书,第一时间看更新

1.3.2 Pandas数据清洗

Pandas主要用于数据挖掘和数据分析,同时也提供数据清洗功能。在Pandas中有两类非常重要的数据结构,即序列(Series)和数据框(DataFrame)。Series类似于NumPy中的一维数组对象,由一组数据以及一组与之相关的数据标签(索引)组成,可以通过索引访问Series中某行的数据,也可以通过标签来访问某列的数据。

以下我们创建一个Series。

在创建Series之前,首先需要导入相关的包,代码如下:

     import pandas as pd
     from pandas import Series

下面创建序列return1,它包含企业2020年第三季度在东北、华东、华中、华南、西南、西北6个地区的商品退单量,示例代码和输出如下:

以下我们来创建DataFrame。

DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔值等)。DataFrame既有行索引,又有列索引,它可以被看成是由Series组成的字典(共用同一个索引)。

在创建DataFrame之前,首先需要导入相关的包,代码如下:

     import pandas as pd
     from pandas import DataFrame

如果通过字典创建DataFrame,它会自动加上索引,默认是从0开始的,例如创建企业2020年4个季度在6个地区的商品退单量的DataFrame,即return2,示例代码和输出如下: