1.3 本书的主要贡献
利用大数据平台的应用层进行异常检测分析具有重要的意义,本书介绍了大数据平台异常检测分析的相关基础,主要以大数据技术为辅助,针对大数据平台的应用层日志数据,研究了异常的检测与分析问题,研究了大数据平台异常的离线检测分析的方法体系及实时检测的机制,并实现了该系统。该系统通过与动态规则库进行序列比对来实现实时定位异常,对速率与准确率都有较高的要求,主要包括以下三个方面的核心内容:
(1)如何快速而有效地构建动态规则库;
(2)如何实时计算会话流的异常度;
(3)如何搭建基于大数据平台的异常检测与分析系统。
以上三个方面是本书面临的挑战性问题。
针对上述问题,本书做了许多前瞻性的研究,其主要贡献表现在如下几个方面:
(1)提出了基于数据流二重概念漂移检测的增量学习;
(2)提出了分布式日志的最大频繁序列模式挖掘算法;
(3)提出了基于最大频繁模式的动态规则库构建算法;
(4)提出了基于Web会话流的分布式实时异常定位算法;
(5)提出了基于最大信息系数的在线异常检测算法;
(6)提出了基于聚类分析的离线异常检测算法;
(7)提出了基于相邻请求的动态时间阈值会话识别算法;
(8)提出了基于会话特征相似性模糊聚类的SFAD异常检测算法;
(9)提出了基于贝叶斯粒子群的异常检测算法;
(10)提出了平台异常时的推测式任务调度策略;
(11)提出了基于实时负载的推测式任务调度算法;
(12)分析了数据平台异常检测分析(RADA)系统在实现时所采用的大数据技术与组件技术选型;
(13)针对RADA系统进行了深入的结构化分析,进行了基于融合架构的RADA系统概要设计;
(14)研究了RADA系统的详细设计与实现方法,完整地总结了大数据平台异常的实时检测与分析RADA系统的关键技术。
以上各个方面的创新性工作为本书研究的RADA系统的实现提供了强有力的技术保证,也为RADA系统的后续扩展提供了可行的方向性指导。