1.3 大数据分析与挖掘主要技术
大数据分析与挖掘的过程一般分为如下几个步骤。
(1)任务目标的确定
这一步骤主要是进行应用的需求分析,特别是要明确分析的目标,了解与应用有关的先验知识和应用的最终目标。
(2)目标数据集的提取
这一步骤是要根据分析和挖掘的目标,从应用相关的所有数据中抽取数据集,并选择全部数据属性中与目标最相关的属性子集。
(3)数据预处理
这一步骤用来提高数据挖掘过程中所需数据的质量,同时也能够提高挖掘的效率。数据预处理过程包括数据清洗、数据转换、数据集成、数据约减等操作。
(4)建立适当的数据分析与挖掘模型
这一步骤包含了大量的分析与挖掘功能,如统计分析、分类和回归、聚类分析、关联规则挖掘、异常检测等。
(5)模型的解释与评估
这一步骤主要是对挖掘出的模型进行解释,可以用可视化的方式来展示它们以利于人们理解。对模型的评估可以采用自动或半自动方式来进行,目的是找出用户真正感兴趣或有用的模型。
(6)知识的应用
将挖掘出的知识以及确立的模型部署在用户的应用中。但这并不代表数据挖掘过程的结束,还需要一个不断反馈和迭代的过程,使模型和挖掘出的知识更加完善。
数据挖掘主要包括如下的功能。
(1)对数据的统计分析与特征描述
统计分析与特征描述是对数据的本质进行刻画的方法。统计分析包括对数据分布、集中与发散程度的描述,主成分分析,数据之间的相关性分析等。特征描述的结果可以用多种方式进行展现,例如,散点图、饼状图、直方图、函数曲线、透视图等。
(2)关联规则挖掘和相关性分析
在超市或者网店的商品交易过程中,经常发现有些商品会被同时购买。例如,在购买牛奶时也会购买面包,这些经常一起购买的商品就构成了关联规则。有些商品的购买则是相继出现的。例如,很多消费者先购买一台笔记本电脑,隔了一段时间会接着购买内存卡、蓝牙音箱等。这称为频繁序列模式。
(3)分类和回归
分类是通过对一些已知类别标号的训练数据进行分析,找到一种可以描述和区分数据类别的模型,然后用这个模型来预测未知类别标号的数据所属的类别。分类模型的形式有多种,例如,决策树、贝叶斯分类器、KNN分类器、组合分类算法等。回归则是对数值型的函数进行建模,常用于数值预测。
(4)聚类分析
分类和回归分析都有处理训练数据的过程,训练数据的类别标号为已知。而聚类分析则是对未知类别标号的数据进行直接处理。聚类的目标是使聚类内数据的相似性最大,聚类间数据的相似性最小。每一个聚类可以看成是一个类别,从中可以导出分类的规则。
(5)异常检测或者离群点分析
一个数据集可能包含这样一些数据,它们与数据模型的总体特性不一致,称为离群点。在很多应用中,例如,信用卡欺诈这类稀有的事件可能更应该引起关注。离群点可以通过统计测试进行检测,即假设数据集服从某一个概率分布,然后看某个对象是否在该分布范围之内。也可以使用距离测量,将那些与任何聚类都相距很远的对象当作离群点。除此之外,基于密度的方法可以检测局部区域内的离群点。