基于机器学习的数据缺失值填补:理论与方法
上QQ阅读APP看书,第一时间看更新

2.1.1 完全随机缺失

完全随机缺失是指,数据的缺失概率与缺失变量以及非缺失变量均不相关[2]。非缺失变量能够被成功观测与记录,其数值构成了数据集中的现有值;缺失变量无法被成功观测与记录,对应着数据集中的缺失值。

假设X={xi|xis,i=1,2,…,n}表示样本数量为n,属性数量为s的数据集,第i个样本为xi=[xi1,xi2,…,xis]T(i=1,2,…,n)。I=[Iij]∈n×s用于描述数据的缺失情况,定义如式(2-1)所示:

当属性值xij缺失时,Iij=0,否则,Iij=1。令xip表示样本xi中的现有值,xim表示样本xi中的现有值,完全随机缺失下,xij的缺失概率如式(2-2)所示[3]

在数据采集、传输、存储、处理等过程中,由人为失误或机器故障等原因所致的数据缺失通常属于完全随机缺失。例如,操作员在录入数据时因不慎而遗漏某些数值,传感器节点在某时刻因信号强度衰弱而无法成功传输数据。

鉴于缺失值的产生完全随机,当数据集中缺失值所占比例较小时,可直接删除包含缺失值的不完整样本,仅根据数据集中的完整样本展开分析。简单的统计分析方法在处理此缺失机制时同样具备可行性,例如,可采用均值填补法,根据不完整属性下所有现有值的平均值估算缺失值;也可构建关于缺失值的线性回归模型,利用模型输出进行缺失值估计。针对医疗卫生领域的完全随机缺失问题,武瑞仙[4]等人将直接删除法与部分基于统计学的缺失值填补方法进行对比后发现,当数据集中缺失值的比例小于10%时,两类方法的填补效果相当,随着缺失值比例的增加,直接删除法的填补精度逐渐降低,而多重填补等统计学方法则表现得更为理想。此外,基于神经网络等机器学习算法的缺失值填补法通过对数据集内有效信息的合理挖掘,也能够在此缺失机制下实现缺失值的有效估计。

相较于本节后续介绍的随机缺失和非随机缺失,完全随机缺失的处理方式更为简单,但其在实际处理中并不普遍[5]