上QQ阅读APP看书,第一时间看更新
5.4.2 异常值处理
通过上述检测方法找到的异常值并不是绝对准确的,具体情况还需根据业务的理解加以判断。同样,也需结合实际情况对异常值进行处理:删除、修正或者不处理。
·视为缺失值:使用缺失值填充方法进行异常值修正(平均数、中位数、模型拟合等)。
·直接删除:一些模型比如逻辑回归对异常值很敏感,如果不进行处理,可能会出现过拟合等问题。
·不处理:部分模型如树模型对异常值不敏感,或采取第6章介绍的分箱方法,将缺失值单独分为一箱。
通过上述检测方法找到的异常值并不是绝对准确的,具体情况还需根据业务的理解加以判断。同样,也需结合实际情况对异常值进行处理:删除、修正或者不处理。
·视为缺失值:使用缺失值填充方法进行异常值修正(平均数、中位数、模型拟合等)。
·直接删除:一些模型比如逻辑回归对异常值很敏感,如果不进行处理,可能会出现过拟合等问题。
·不处理:部分模型如树模型对异常值不敏感,或采取第6章介绍的分箱方法,将缺失值单独分为一箱。