1.2.1 CRISP-DM简介
CRISP-DM是一种被广泛采用的数据挖掘分析方法框架,它认为数据挖掘是如图1-7所示的业务理解、数据理解、数据准备、模型建立、模型评估、模型部署6个阶段的迭代过程。和一般的IT项目不同,分析项目的不同阶段之间存在很强的迭代关系。
图1-7 CRISP-DM方法
1)业务理解:这一初始阶段集中在从业务角度理解项目的目标和要求,然后把理解转化为数据挖掘问题的定义和一个初步执行计划。狭义的业务理解指的是理解业务部门或业务分析师提出的业务问题,广义的业务理解还包括数据分析师主动发掘和定义问题。广义的业务理解对数据分析师的要求非常高,不仅要有整体技术研判力(可行性、技术难度、关键技术点),还要有业务洞察力,可以定义出可执行有价值的好问题。
2)数据理解:始于原始数据的收集,然后熟悉数据,标明数据质量问题,对数据进行初步探索和理解,发掘值得关注的数据子集以形成对隐藏信息的假设。
3)数据准备:包括从原始数据集到最终数据集的所有活动。数据准备任务可能迭代多次,而且不存在一成不变的顺序。这些任务包括数据的整合、选择、清洗、特征加工。
4)模型建立:主要是分析算法选择、超参数调优和模型融合。在做的过程中,通常会发现新的数据质量问题,因此,常常需要返回到数据准备阶段。
5)模型评估:进入这个阶段时,已经建立了一个或多个相对可靠的模型。在模型最后发布前,需要更彻底地评估模型和检查建立模型的各步骤,从而确保它真正达到了业务目标和落地应用条件。此阶段的关键目的是检查是否忽略了一些重要的业务场景。关于数据挖掘模型是否可用的决定应该在此阶段确定下来。
6)模型部署:模型的建立并不是项目的结尾,通常需要以业务应用的形式发布和部署模型。即使建模仅是为了增加对数据的了解,所获得的洞察通常也需要以一种客户能够理解的方式呈现出来。
CRISP-DM对每个阶段的活动做了细化[5] ,使其成为一个具有指导性的方法论,如图1-8所示。即便如此,对于特定领域的数据分析来说,我们也需要在CRISP-DM方法论的基础上,加入领域特征,细化活动内容,实例化交付物,明确侧重点,使其成为在特定领域内具有可操作性的方法论。
图1-8 CRISP-DM每个阶段的执行内容
在最后,也简要提一下CRISP-DM的缔造者之一Tom Khabaza总结的数据挖掘9大定律:①Business Goals Law:每个数据挖掘解决方案的根源都是有业务目标的;②Business Knowledge Law:数据挖掘过程的每一步都需要以业务或领域信息为中心;③Data Preparation Law:数据准备与处理是数据挖掘的基础,其工作量通常占数据分析过程50%以上;④No Free Lunch Law(没有免费午餐):做到极致后,提高一个指标必然会牺牲另外一个指标,或者说,任何模型都是有适用前提的;⑤Watkins’Law:在数据的世界里,总是有模式可循的,找不到规律不是因为规律不存在,而是因为还没有发现它;⑥Insight Law:数据挖掘可以有效发现单纯人工很难发现的信息与规律,辅助领域专家从业务角度的解读和决策;⑦Prediction Law:基于数据驱动方法的统计泛化能力,预测结果增加了样本的局部信息;⑧Value Law:数据挖掘模型再精准,没有业务应用也是没有价值的;⑨Law of Change:不存在一成不变的模式,一定要不断关注训练出的模型的有效性。上面这9条其实归根到底就是业务逻辑决定数据挖掘。纯粹为了追求高深的数据挖掘算法技术,而忽略了业务目的、业务应用的做法是本末倒置。