《架构世界》2020数据刊:打通企业数据应用的最后一公里
上QQ阅读APP看书,第一时间看更新

2.数据流向关系分析的缺陷

当前元数据产品对数据流向关系的分析是逐层分析,例如ABC元数据与D元数据有关系,D元数据与EFG元数据有关系,通过对A做影响分析的时候,我得出的是A—>D—>(EFG)而实际上数据流向关系是A->D->E,同理,我们对E进行血缘分析的时候,也会出现D的数据来源于ABC元数据。

举个实际的例子:这是指标管理模块中的实际数据流向。用颜色来区分数据流向,同一颜色代表了数据流动路径。

基于上图展示的事实,从某一指标进行溯源,通常情况下(基于元数据)的溯源分析,首先找到汇总表,再往前追溯时,往往是基于汇总表进行溯源,找到汇总表所有的来源表,分析呈现泛化,导致分析结果不够精确,缺乏指导意义,如下图所示:

这个问题会让使用元数据的人很纠结,数据明明没有流到这里,怎么分析出对后面有影响呢。我想要的效果应该是这样的:

那是不是现有的元数据分析没用用处了吗?从数据加工的角度想,还是有用处的,试想下如果A的数据结构发生了变化,删除了一个字段,80%的几率会影响到C表数据加工过程。

如何准确标注数据的的坐标,是将来元数据厂商要抢占的制高点。