工业分析通常需要融合多个领域的原始数据,在进入机器学习算法之前,需要对数据进行预处理,包括数据清洗、数据合并、特征变量的提取与选择等。这通常是一个反复迭代的过程,借助探索型数据分析(Exploratory Data Analysis,EDA)工具,通过数据的业务化、业务的数据化的迭代加深对数据的理解。本章简要介绍数据预处理中各个算法工具,帮助读者建立起整体的概念框架。