上QQ阅读APP看书,第一时间看更新
.数据流向关系分析的缺陷
当前元数据产品对数据流向关系的分析是逐层分析,例如
、 、 元数据与 元数据有关系, 元数据与 、 、 元数据有关系,通过对 做影响分析的时候,我得出的是 —> —>( 、 、 )而实际上数据流向关系是 -> -> ,同理,我们对 进行血缘分析的时候,也会出现 的数据来源于 、 、 元数据。举个实际的例子:这是指标管理模块中的实际数据流向。用颜色来区分数据流向,同一颜色代表了数据流动路径。
基于上图展示的事实,从某一指标进行溯源,通常情况下(基于元数据)的溯源分析,首先找到汇总表,再往前追溯时,往往是基于汇总表进行溯源,找到汇总表所有的来源表,分析呈现泛化,导致分析结果不够精确,缺乏指导意义,如下图所示:
这个问题会让使用元数据的人很纠结,数据明明没有流到这里,怎么分析出对后面有影响呢。我想要的效果应该是这样的:
那是不是现有的元数据分析没用用处了吗?从数据加工的角度想,还是有用处的,试想下如果
的数据结构发生了变化,删除了一个字段, %的几率会影响到 表数据加工过程。如何准确标注数据的的坐标,是将来元数据厂商要抢占的制高点。