上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
1.2 数据挖掘的过程方法
数据挖掘是一个复杂过程,需要一个明确方法有序有效地组织这个过程。早期有SPSS提出的5A(Assess,Access,Analysis,Act,Automae)模型,SAS提出的SEMMA(Sample,Explore,Modify,Model,Assess)模型,1998年NCR(Teradata从NCR脱离出来)、Clementine(1998年被SPSS收购)、OHRA和Daimler-Benz联合项目组提出了CRISP-DM(Cross-Industry Standard Process for Data Mining),分为业务理解(Business Understanding)、数据理解(Data Understanding)、数据准备(Data Preparation)、模型建立(Modeling)、模型评估(Evaluation)、模型部署(Deployment)6个阶段,它已经成为目前的事实标准[4] 。2016年微软提出的TDSP(Team Data Science Process)将数据挖掘分为业务理解、数据获取与理解、建模、部署、用户接受5个阶段。这些方法框架与CRISP-DM基本思想一致,下面重点介绍CRISP-DM方法。