机器学习:软件工程方法与实现
上QQ阅读APP看书,第一时间看更新

5.2.1 整体数据概览

数据分析的第一步:了解数据全貌。Pandas中支持快速查看数据概览。

1)导入相关的包和加载示例数据:


import pandas as pd
import numpy as np
import seaborn as sns 
import matplotlib.pyplot as plt
#seaborn里有数据集,可以直接加载使用
titanic_df = sns.load_dataset('titanic')
#查看前5条数据
titanic_df.head()

输出如图5-2所示。

图5-2 head接口看数据情况

2)查看数据量和概览:


print(titanic_df.shape)
#输出 (891,15)
#查看DataFrame的基本信息,包含索引、字段名称、非空值统计、字段类型
titanic_df.info()

输出如图5-3所示。

3)查看数值型变量的描述统计信息,包括数量、均值、标准差、最大最小值、分位数:


titanic_df.describe()

输出如图5-4所示。

图5-3 DataFrame基本信息

图5-4 数据描述统计信息