基于机器学习的数据缺失值填补:理论与方法
上QQ阅读APP看书,第一时间看更新

3.2 基于属性间相关性的填补方法

基于属性间相关性的填补方法通过回归建模挖掘数据属性间的关联关系,以此进行缺失值填补。此类方法主要包括基于线性回归的填补方法,以及基于非线性回归的填补方法。基于线性回归的填补方法通过对不完整数据的线性建模进行缺失值填补,主要适用于数据属性间存在线性关系的场景。相较而言,基于非线性回归的填补方法利用非线性模型挖掘数据属性间的关联,进而借助所建模型填补缺失值。在非线性回归建模期间,人为构造拟合函数会存在一定主观因素的干扰,并且未必能构建出与真实数据集相匹配的函数结构。鉴于神经网络具备强大的非线性映射能力,该模型能够有效挖掘数据属性间复杂的非线性关系,并以此为填补性能的改善带来巨大潜力。因此,本节首先探讨基于线性回归、非线性回归的填补方法,在此基础上对基于神经网络的填补方法进一步展开分析。