3.2 二重概念漂移检测机制
第1章中把概念漂移的检测分为两个方面,即从可能引起概念漂移的数据属性与概念漂移发生后可能引起的分类结果这两个方面分析(数据属性方面和分类性能方面)。不妨称前者为性质法,后者为性能法。
无论是从数据属性方面还是从分类性能方面,不同的概念漂移检测方法都有不同的效果。性质法的优点是可以在对数据流进行分类之前通过数据的概率分布、特征关联等实例的属性来做概念漂移检测,从而指导分类器的构造;缺点是对某些类型的概念漂移检测不出,存在漏报现象。性能法往往利用分类器分类后的结果作为判断有无概念漂移发生的依据,优点是可检测出多种类型的概念漂移,缺点是分类性能会受分类器的影响,分类性能反过来又影响概念漂移的检测。若把两者结合起来,则可以发挥各自的优势。
在基于性质法的概念漂移检测中,无论是通过数据概率分布还是通过属性相关性来对数据流进行检测,都是一个事倍功半的任务。正如前面所描述的,这需要系统对数据流的概率分布和属性相关性进行持续的监控,而实时的监控增大了系统的负荷。由于K-means相似性的概念要基于实例的属性来定义,即聚类的依据是实例的属性,因此,可以用K-means聚类来间接地反映数据属性的变化,即从数据属性方面对概念漂移进行检测。在分类性能方面,J.Gama等人[83]介绍了一种基于伯努利分布的概念漂移检测方法。该方法认为,在一系列数据中,分类错误率是一个满足伯努利分布的随机变量。而且,该方法简单且效果好,不仅可以降低模型的复杂度,还可以提高模型的效率。基于此,可以利用伯努利分布对分类错误率进行评判,即从分类性能方面检测概念漂移。
本节从数据属性与分类性能两个维度介绍数据流的概念漂移检测机制,在两个维度上分别给出基于数据属性的K-means聚类数据流概念漂移检测机制和基于分类性能的伯努利分布数据流概念漂移检测机制,并详细描述两种机制的流程。