Python金融数据挖掘与分析实战
上QQ阅读APP看书,第一时间看更新

3.2.2 数据概览

本节将以线上购物数据Income_n_onlineshopping为例介绍如何进行数据概览。

1)使用pandas中的read_csv读取数据。


import pandas as pd                                             # 引入pandas库
rawdata = pd.read_csv('./Income_n_onlineshopping.csv')          # 读取数据

2)查看部分数据,头五行和尾五行的数据结果如图3-2和图3-3所示。

图3-2 输出数据头五行

图3-3 输出数据尾五行


rawdata.head()                                                  # 打印头五行
rawdata.tail()                                                  # 打印尾五行

3)检查数据类型,结果如图3-4所示。


rawdata.dtypes

图3-4 输出数据类型

图3-5 输出数据的范围

4)对数据进行简单的统计分析,从而对数据有一个整体认知。清洗数据前看一下数据是很有用的。


print(rawdata.describe())

输出数据集每列的count(数量)、mean(平均值)、std(标准差)、min(最小值)、25%/50%/75%(分位数)、max(最大值),如图3-5所示。由于Region与Online Shopper两列不是数字,统计中并未囊括。

5)检查表格的行数和列数或列名。

检查表格行数和列数的代码如下:


nrow,ncol = rawdata.shape       # 可以将行数和列数保存到两个变量带之后调用

检查列名的代码如下:


colNames = rawdata.columns.tolist()
print(colNames)
['Region', 'Age', 'Income', 'Online Shopper']