上QQ阅读APP看书,第一时间看更新
3.2.2 数据概览
本节将以线上购物数据Income_n_onlineshopping为例介绍如何进行数据概览。
1)使用pandas中的read_csv读取数据。
import pandas as pd # 引入pandas库 rawdata = pd.read_csv('./Income_n_onlineshopping.csv') # 读取数据
2)查看部分数据,头五行和尾五行的数据结果如图3-2和图3-3所示。
图3-2 输出数据头五行
图3-3 输出数据尾五行
rawdata.head() # 打印头五行 rawdata.tail() # 打印尾五行
3)检查数据类型,结果如图3-4所示。
rawdata.dtypes
图3-4 输出数据类型
图3-5 输出数据的范围
4)对数据进行简单的统计分析,从而对数据有一个整体认知。清洗数据前看一下数据是很有用的。
print(rawdata.describe())
输出数据集每列的count(数量)、mean(平均值)、std(标准差)、min(最小值)、25%/50%/75%(分位数)、max(最大值),如图3-5所示。由于Region与Online Shopper两列不是数字,统计中并未囊括。
5)检查表格的行数和列数或列名。
检查表格行数和列数的代码如下:
nrow,ncol = rawdata.shape # 可以将行数和列数保存到两个变量带之后调用
检查列名的代码如下:
colNames = rawdata.columns.tolist() print(colNames) ['Region', 'Age', 'Income', 'Online Shopper']