偏最小二乘法优化及其在中医药领域的应用研究
上QQ阅读APP看书,第一时间看更新

3.1.1 缺失值处理

数据缺失在实际的各种数据库中是无法避免的,医药界、商业界、工业界等各个行业都可能存在数据缺失的问题。数据缺失的原因也是多种多样的,如当数据被遗漏、当数据无法获取时等。

假设待分析的一组数据不完整,某些属性字段值缺失。那么通常使用下面这些方法处理这些缺失的属性值。

1.直接忽略或者删除含缺失值的元组

如果某个元组存在多个属性缺少值,可以采用忽略或者删除元组的方法,但是不能使用元组的其他属性值,因为它们也许还对当前任务有用。当元组属性缺失值较少或者百分比变化较大时,使用直接忽略的方法并不会很有效果。此外,这种方法可能会让真实的数据被抛弃,从而导致数据发生偏离,得出错误结论。

2.人工填补缺失值

一般用户会对数据比较熟悉,因此用人工填补缺失值,产生的数据误差相对来说较小。然而,当存在很多缺失值、数据量很大时,人工填补会非常费时,此时使用该方法并不合适。

3.用全局常量填补缺失值

可以将缺失值简单地用一个常量填补。然而该方法虽然简单,但并不可靠。因为用同一个常量值填补所有缺失的属性值,程序有可能会误认为这些属性具有相同的值,从而导致数据偏离。

4.用相邻的数据值填补缺失值

该方法主要是通过挖掘出缺失值与它的相邻数据之间的关系,发现其中的数据特征,从而用缺失值所在位置的前一项或者后一项的数据值来填补缺失值。

5.用属性的均值或中位数填补缺失值

使用该方法填补缺失值时,通常会将数据分为正常的对称数据和非正常的倾斜数据。对于对称的数据,用该属性的平均值填补缺失值;而不对称分布的数据,可以用统计学中的中位数填补。

6.用与元组同类的样本属性的均值或中位数填补缺失值

使用该方法填补缺失值时,先是将该组数据按固定元组进行分类。同样地,对于正常的数据用属性的均值填补,如果是分布倾斜的数据,则使用中位数填补缺失值。

7.用模型预测方法填补缺失值

可以用回归分析、贝叶斯估计等方法,基于推理工具或决策树归纳确定缺失值,即推理出最可能的值来填补缺失值[1]

在处理缺失值问题的众多方法中,第1~6个方法都有可能造成较大程度的数据偏离。相比之下,第7个方法是如今最流行和实用的方法,该方法在已有的数据信息的基础上来预测可能的缺失值,相比其他方法,它更加快速和准确。