现代决策树模型及其编程实践:从传统决策树到深度决策树
上QQ阅读APP看书,第一时间看更新

2.1.1 缺失值的处理

实践中收集的大多数数据集都可能包含缺失值。出现这种情况的原因可能是测量设备故障、数据收集过程中实验条件或环境的变化、人为错误以及故意错误(例如,回答者不愿意泄露信息)等。

如果出现缺失值的样本数较少,则可能会省略这些样本。但是,如果样本中有大量的特征属性,每个特征属性即使出现一小部分缺失值,也会影响很多样本。例如,在30个特征属性的情况下,如果只有5%的数据缺失(假设在目标和特征属性间随机和独立地传播),则几乎80%的样本将不得不被忽略,因为0.9530=0.215。

另一种处理缺失值的替代方法是,根据样本中该特征属性的其他值,将缺失值替换为估算值。例如,可以用所有样本中该特征属性的平均值替换该特征属性的缺失值。但是,使用此类技术将导致样本数据集缺乏变化,从而引入偏差。