Python金融数据挖掘与分析实战
上QQ阅读APP看书,第一时间看更新

3.2 数据预处理

明确数据分析需求和数据源的情况后,即可进入数据预处理阶段。通常预处理阶段可分为六个步骤。

1)数据集导入。多使用文本文件存储方式,所需的数据导入Python进行分析即可。如果数据量很大,建议使用数据库,单机环境下可搭建MySQL数据库对数据进行统一管理。

2)数据概览。这里包含两个部分:一是检查元数据,包括字段解释、数据来源、代码表等描述数据的信息;二是抽取一部分数据,使用人工查看方式,以对数据本身有一个直观认识,并初步发现一些问题,为之后的处理做准备。

3)数据清洗。重复信息删除、错误信息纠正、缺失值填充等都是确保模型正确性和有效性的关键。

4)类别变量转换。大多数模型无法直接处理文字类特征,需要在预处理时将文字类信息转换为数字类型。

5)数据分割。按需分成训练集和测试集,根据不同的模型需求进行不同的划分。

6)特征缩放。不同维度的数值范围可能差别很大,比如身高和体重,这对需要求最优解的模型是不利的,会造成大量额外的计算压力。

完成上述六个步骤后,才可以进入建模环节。