2.1.1 缺失值的处理_现代决策树模型及其编程实践：从传统决策树到深度决策树-QQ阅读轻小说男生网

上QQ阅读APP看书，第一时间看更新

2.1.1　缺失值的处理

实践中收集的大多数数据集都可能包含缺失值。出现这种情况的原因可能是测量设备故障、数据收集过程中实验条件或环境的变化、人为错误以及故意错误（例如，回答者不愿意泄露信息）等。

如果出现缺失值的样本数较少，则可能会省略这些样本。但是，如果样本中有大量的特征属性，每个特征属性即使出现一小部分缺失值，也会影响很多样本。例如，在30个特征属性的情况下，如果只有5%的数据缺失（假设在目标和特征属性间随机和独立地传播），则几乎80%的样本将不得不被忽略，因为0.9530=0.215。

另一种处理缺失值的替代方法是，根据样本中该特征属性的其他值，将缺失值替换为估算值。例如，可以用所有样本中该特征属性的平均值替换该特征属性的缺失值。但是，使用此类技术将导致样本数据集缺乏变化，从而引入偏差。