1.2.2 分析课题的执行路径
课题成熟度的差异和分析师经验知识体系的差异,使得不同项目在CRISP-DM的“业务理解”环节中差异很大,在执行中具体体现为3类典型场景。
1)业务规划类:只有一个大概的业务愿景或目标,如用大数据提高产品质量、用大数据构建精加工工业互联网(对第三方开放自己的精加工能力)。此时需要业务分析师与客户一起从业务角度分解业务愿景,并将其归结为若干个数据分析问题。
2)业务问题理解类:有明确的业务需求(如备件需求预测)。这时我们需要将组织结构、业务流程、典型的业务场景(如促销、囤货、地区公司合并等)等业务上下文信息进行细化与理解。
3)数据分析问题定义类:有些问题不涉及业务上下文,如监控图像识别。这时只需要将业务期望(如检出率、误报率、处理速度等要求)确认清楚即可。
在工作量上,“业务理解”和“数据准备”往往会占用75%以上的时间。很多分析问题的定义需要在迭代中不断理清;Data Schema(数据模式)层面的数据预处理(包括数据类型及值域检查、数据集的合并等)通常比较简单,但业务语义上的数据质量问题只能在数据探索和建模过程中不断被发现。
在经典的CRISP-DM方法中,假设分析课题是给定的,“业务理解”只是对该课题的业务背景和含义进行理解。但很多数据分析项目并不是这样,它们需要分析人员根据业务需求不断细化和定义,这在工业大数据领域更为普遍。工业数据分析常常出现知识严重二分的情形。数据分析师对工业过程缺乏深入了解,而业界人员对数据分析的了解相对缺乏,需要一种好的方法把两个领域结合起来,以定义一个有价值且可落地的数据分析课题。
典型工业问题的定义的方法在《工业大数据分析实践》[2] 一书中有详细的论述,另外,还对CRISP-DM方法的6个步骤在工业领域的应用做了细化,如图1-9所示,可以看出系统运行机理和业务场景在工业数据分析中的重要程度。为避免内容的重复,这里不再赘述。
图1-9 CRISP-DM方法论在工业领域中的细化