上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
第3章 基于数据流二重概念漂移检测的增量学习
3.1 引言
数据流的在线分类学习分为两部分,一是对数据流进行快速而准确的概念漂移检测,二是在检测到概念漂移发生后及时进行模型更新。由第2章可以知道,一般是把数据流划分为窗口的形式,通过检测当前数据窗口数据流的概率分布或分类结果来对概念漂移现象进行检测。
在概念漂移检测方面,本章将采用二重检测机制,即分别从数据属性和分类性能这两个角度对数据流进行检测。本章首先提出了基于K-means聚类和基于伯努利分布的二重概念漂移检测模型,该模型既考虑了数据属性,又结合了分类器的分类性能,有较强的抗概念漂移能力。数据流无限性的性质要求分类模型能够在保留旧知识的基础上连续性地学习新知识,而且,数据流经常发生概念漂移现象,这就要求分类器有较强的泛化能力。Lifna C S等人[82]用在模型初始化时对主题进行按组分类且为每个组分配类别标签的方法识别概念漂移,使用滑动窗口的机制处理数据流。受这种思想的影响,一般认为首先对数据流进行聚类是一种比较好的模型构造方法。
本章内容主要分为4个部分:3.2节介绍一种基于数据流的二重概念漂移检测机制;3.3节介绍基于数据属性的K-means聚类(K-means Based on Data Property,KMBDP)二重概念漂移检测机制;3.4节介绍基于分类性能的伯努利分布(Bernoulli Distribution Based on Classification Performance,BDBCP)二重概念漂移检测机制,在此基础上,引入增量支持向量机的概念;3.5节给出一种基于增量SVM与二重检测的概念漂移数据流分类模型TDD-ISVM。