3.5 数据的分类规范
3.5.1 主数据分类属性及其作用
对主数据进行分类有两种作用,一种是便于查找,另一种是便于统计分析。总的来说,对主数据的分类也代表了我们的一种观察视角。我们曾经粗浅地学习过,植物分类学最早的分类方式是通过性状进行分类,技术进步后就通过基因排序进行分类,但我们发现在一个城市的植物园中,对植物的分类则首先分为观赏植物和非观赏性植物。所以分类是一种视角,并没有严格的对错之分,只是更加通用的视角使用得更多,更为被人们所接受。
每当我们在主数据属性中加入一个枚举属性或引用另一个主数据时(无论是参照数据还是另一个主数据),都可以理解为这个主数据增加了一个分类属性。
比如,人员中加入了一个枚举的“性别”属性,这个性别属性中有三个枚举值,分别是“男”“女”“其他”,或者加入了一个“岗位”的参照数据属性。
还有一种情况是一个主数据引用了另一个主数据,这也会增加一种主数据分类。还是以人员主数据为例,其含有一个“所属部门”的主数据属性,这样我们就能够知道这个员工属于哪个部门。同时,部门主数据又是一个单独的主数据,人员主数据和部门主数据之间是参照引用的关系。
3.5.2 确定主数据分类属性的方法
每个主数据都有很多分类属性,针对这些分类属性,哪些可以纳入主数据范畴的判断方法类似于主数据应该包含哪些属性信息的判断方法。
通常我们希望将主数据描述实体的一些客观基本分类属性纳入主数据范畴。我们在对主数据进行统计分析或画像标签时,会根据需求对主数据增加新的分类属性,这种分类属性因分析的业务需求而增加,主数据管理体系也应当提供支撑能力。但在此种情况下,需要注意数据的补录工作。如果是标签类属性,可以由交易数据和行为数据计算得出;如果是一个陌生的分类,则需要进行一系列的动作才能够补齐数据,达到最终的目标。这类分类数据可以在主数据后续使用过程中添加,而不一定要在主数据模型定义之初就进行定义。
3.5.3 主数据分类的注意事项
主数据分类属性的确定工作中可能会出现一些问题,我们最关心的还是分类属性错误和错误使用分类属性的问题,以下为具体场景。
第一,有人总是认为数据应当只有一种分类属性,甚至认为应将各种因素放到这一个分类属性中去。就如我们上面所说,对于同一个主数据而言,添加的每一个枚举属性、参照属性,以及其他主数据属性都可以算作分类,只不过我们没有正式将其称为主数据分类。
第二,分类的本质是以某一种视角对当前数据进行划分的方法。比如,一个筐子里有一百个萝卜,如果按照体积分,可以分成大、中、小三类;如果按照颜色分,可以分成白色、红色、青色三类;如果按照品种分,可以分成白萝卜、心里美和小水萝卜三类。所以说分类可以有很多种,每个使用人的需求不同,其使用的分类方法也不同。所以在对一种主数据进行分类时,我们通常先按照数据的自然属性进行分类,因为这样的分类比较稳定,不会有大的变化。如果我们发现了一个新的视角,需要按照新视角进行重新划分,则应再引入一个新的分类属性。
第三,在主数据设计之初,了解到的、考虑到的属性都可以放进来,但是没有必要追求“全”。即使是专家也不可能把“未来”都考虑清楚,所以我们没有必要为不够“全”而感到焦虑。
第四,避免在一个分类属性中包含多种分类方法和视角。比如,第一层按照材料划分,第二层按照业务线划分,而第三层按照品类划分。采用这样的分类方法是由于分类人员没有理解分类的本质,致使分类混乱和错误。这种情况尤其易出现在产品分类和物料分类的时候。这样的划分只能让使用者感到不便,让分类人员和数据录入人员感到困惑并造成后续的数据分类归集错误。对于这样的错误,需要在设计分类属性时避免。
第五,进行复杂分类时需要制定相关的说明并进行举例,因为在很多复杂场景中,需要细化的标准。比如,对家具的分类中有一个材质属性,这个分类中有一项是金属家具,那么什么样的家具可以归类为金属家具呢?是有四条腿且是金属的就归类为金属家具吗?还是整个桌面是金属的就归类为金属家具?所以在具体的规范中一定要有所说明,让操作人员能够按照说明无二意地进行数据记录。
第六,数据的分类必须保证对目标内的所有实例采取单一视角,做到全部覆盖、不交叉和无二意。