企业数据治理与SAP MDG实现
上QQ阅读APP看书,第一时间看更新

1.1 关于大数据

大数据,顾名思义,即海量的数据。人类社会从古至今一直同数据的存储与提炼打交道,如古代政府机构对各类公文案牍的处理,某影视剧中出现的“大案牍术”便是一种数据梳理、加载、提炼的原始场景。案牍,是中国古代官府的公文案卷。大,指数量多、范围广。术,则指方法能力。据考证,类似于今天大数据分析的“大案牍术”在唐代确实有一定的史实依据。照此分析起来,剧中关于“大案牍术”的一些情节设置,对做好国防动员潜力数据的调查和运用不无启发意义。现代最早大规模地管理和使用数据是从数据库的诞生开始的,如企业信息化阶段各种管理经营类系统的建设都是建立在数据库基础之上的,数据库中保存了大量结构化的企业关键信息,用来满足企业的各种业务需求。在这个阶段,数据的产生方式是被动的,只有当实际的企业业务发生时,才会产生新的记录并有数据存入数据库。而面对移动互联网等技术和模式的飞速革新,企业业务也正在发生巨大的变革,我们已经步入了一个“数据爆炸”的时代。随着物联网的普及,各种数据获取方式遍布人类活动的各个角落,这些渠道每时每刻都在产生着大量的数据。而企业层面,大数据的数据来源众多,企业应用和各类Web应用都在源源不断地生成新的交易数据,也需要运用各类网络媒介的数据,如社交媒体大数据、搜索大数据、交通大数据、医疗大数据、电信大数据、金融大数据等,数据量已经从TB级别跃升至PB级别。大数据不仅仅是指数据量大,更主要的是包含非常规的数据结构,导致其数据类型丰富。这些数据包括结构化和非结构化数据,其中,结构化数据一般存储在关系数据库(如Oracle、MySQL等)中,而大量的非结构化数据种类繁多,主要包括图片、视频、语音、位置等,广泛存在于邮件、微信、微博、新闻、日志文件等媒介中。如此繁多的异构数据对数据处理和分析技术都提出了新的挑战,也带来了新的机遇,这些机遇促使我们将数据挖掘、统计、机器学习、云计算、大数据处理技术相结合对海量数据进行深度处理与提炼以充分利用其价值,其宏观上主要体现在大数据决策、大数据应用与各行业的深度融合以及大数据开发推动新型应用等方面。

1.1.1 大数据应用场景

大数据决策可以面向种类繁多、非结构化的海量数据进行分析,应用在政府机构、互联网、金融(银行、证券、保险等)、交通、能源以及服务等领域。例如,政府机构可以把大数据技术融入“舆情分析”,通过对论坛、微博、微信、社区等多种来源的数据进行综合分析后理解当下趋势,提炼其中有价值的内容,对社会发展做出正确的预测,协助政府决策应对突发事件,还可以利用大数据处理交通、环保监测、城市规划等方面的建设。再如银行业,可以利用大数据分析技术构建客户画像,包括个人画像、企业画像,在构建画像的基础上开展运营优化、风险管控、精准营销、业务创新等服务;业务上可以精简流程快速放贷、为客户提供各种理财产品组合与相关升级服务。在风险管控方面可以进行事先反欺诈、小微企业贷款评估。在业务创新方面,可实现批量获客、跨界融合以实现产业升级。又如互联网行业,可以借助大数据分析客户行为进行商品推荐和有针对性的广告投放(精准营销)。在生物医学行业,大数据可以帮助实现流行病预测与疫情防控(如COVID-19疫情下我们的大数据体系便对实时疫情数据分析展示、病毒溯源等方面做出了非常积极的贡献)。物流行业中(供应链),可以利用大数据优化物流网络,提高物流效率,降低物流成本,也可以基于实时数据分析实现全企业的供应体系状态可视化。当然,相关应用行业与场景不胜枚举,在此不一一阐述。

1.1.2 大数据应用方式

大数据分析已广泛应用于各个领域,很多智能的、隐藏的、有价值的信息只有通过深入的数据挖掘才能获取。毫无疑问,在企业各业务部门中数据分析已经占据了越来越重要的地位。随着企业集成的数据源不断增多、海量数据不断累积、数据更新频率不断加快、业务维度不断增多,传统的数据存储、处理、读取以及分析技术能力面对大数据洪流下的各方面需求显然已捉襟见肘。因此,对大批量、复杂的各类业务数据的存储、处理和分析能力就显得尤为重要,它直接影响了企业最终能否获得有价值的信息。在大数据时代,企业要想有效利用数据中的价值,就要紧跟大数据技术的发展步伐,提升复杂数据分析能力。复杂数据分析(Sophisticated Data Analysis)是通过整合各种功能强大的数据处理工具,以高性能的数据处理方式来采集、整合和分析复杂数据,并快速从中挖掘出有效信息的技术。

企业数据通常来自内外部的多个数据源,具有体量大、维度多、更新快、价值密度低和数据形式多样的特点。其面对的数据库有传统的关系型数据库(如MySQL、Oracle等),也有适用于处理大量数据的高访问负载以及日志系统的键值数据库、适用于分布式大数据管理的列存储数据库、适用于Web应用的文档型数据库和适用于社交网络的图形数据库等非关系型数据库。可处理的数据分为结构化数据和文本、图像、音频、视频等非结构化数据。大量的、复杂的数据增加了处理的难度,但也提供了更大的信息量。复杂数据分析可以从大量数据中发现其蕴含的模式和规律,进而产生更多的价值。复杂数据分析所涉及的技术包括数据采集、数据处理、数据建模和统计分析等。

1.数据采集(SQL & NoSQL、网络爬虫等)

复杂数据分析的数据源可以是传统的内部数据库,也可以是来自网络上的外部数据。内部数据采集可使用SQL将内部关系型数据库中的数据提取出来,或使用NoSQL将分布的异构数据源中的数据文件(如图片、文本等)抽取出来。外部数据采集通常会用到网络爬虫技术,从Web中获取所需的海量数据,如研究机构或新闻网站上发布的信息等。数据获取后,对其进行清洗、转换、集成,最后加载到数据仓库或数据集市中使用。

2.数据处理(Hadoop/MapReduce & Spark、HDFS、数据抽取 & NLP)

由于复杂数据分析所面对的数据通常体量巨大且形式多样,一般需要使用更高性能的计算架构和存储系统。例如,使用Hadoop大数据处理平台处理用户App浏览记录等数据时,使用分布式计算的MapReduce、Spark计算框架可以提升计算能力,从而应对更复杂的数据并减少数据处理时间,使用分布式文件存储HDFS进行大规模数据协同工作来提升数据的吞吐能力和速度。针对非结构化的数据,往往需要对数据进行深入理解,并通过复杂数据分析将结构多样、语义多样的数据进行结构化处理,提取出可以直接进行分析的数据,如针对半结构化数据的数据抽取(Information Extraction)和用于非结构化数据的自然语言处理。

3.数据建模(分类、聚类、预测等)

数据建模是复杂数据分析的核心技术,它能从大量数据中通过算法搜索隐藏于其中的信息,主要的算法包括分类(Classification)、聚类(Clustering)、预测(Prediction)、估计(Estimation)和复杂数据类型挖掘(text、Web、图形图像、视频、音频等)等。数据建模可基于用户行为数据实现对人群特征的分类、根据历史数据预测行业走势和基于对海量图片的深度学习做到对图形图像的识别。

4.统计分析(假设检验、显著性检验、相关性分析等)

统计分析是复杂数据分析的常规武器,运用统计方法进行定性和定量的分析,对研究对象产生更为深刻的认识。主要的分析技术如下。

● 假设检验(Hypothesis Test):用来推断假设是否成立。

● 显著性检验(Significance Test):用来检验变量对目标的影响程度。

● 相关性分析(Correlation Analysis):用来分析变量之间的关系。

● T检验(T Test):用来比较两组数据是否存在显著差异。

● 其他统计分析方法,如方差分析(ANOVA)等。

在应用层面,无论对政府机构还是对各个企业而言,目前大数据在客户需求分析、大数据精准营销、大数据企业运营决策、大数据信用评估体系、大数据社会治理与科学研究等各方面都发挥着重大的作用。

1.1.3 数据管理与数据治理的关系

前文中大体讲述了大数据如今或未来的各种应用场景和应用方式,而本节将主要定位于企业级大数据应用层面。企业大数据是一个现代革命性的愿景,能将整个集团和下属子公司、控股公司、各个部门、各个业务之间分散的数据源进行整合,支持计算容量爆炸的数据增长,能够显著改进企业经营效率,并按照企业需求进行相关扩展,为业务拓展提供动力,所以企业级大数据建设应始终围绕“如何管理数据”“如何分析数据”“如何更好地应用数据”等重点展开讨论。其中,“如何管理数据”之“数据治理”便成了下文阐述的重点。

数据是信息化应用的基础,所有的企业资料最终都会在各系统中汇集成各类数据,保存在各数据库中,企业用户通过各种业务或非业务相关的系统创建数据、获取数据,而数据的准确性、完整性都直接决定了信息化在企业战略中的成效。

数据管理(Data Management)是指通过规划、控制与提供数据和信息资产职能,以获取、控制和提高数据和信息资产价值的过程,所以对数据的科学管理便是数据准确、完整的基础保障。

数据治理在一定程度上是对数据管理的细化,它通过明确相关管理组织、工作责任和管理流程来确保数据资产能长期有效、可持续地得到管理,进而使企业获得高质量的数据。高质量的数据对任何企业来说都是十分重要的战略性资产,尤其是伴随着企业的数字化转型进程,高质量的数据正快速成为一个关键的业务差异。企业要使数据具有价值,就要确保数据的高可信度、安全性、可访问性、准确性、共享性和及时性。数据治理有助于增强企业的灵活性,以最小化决策的相关成本和风险,特别是在数字经济中,数据治理比以往任何时候都显得重要。

目前,数据治理在很多企业实践的过程中也遇到了各种各样的问题,如缺乏企业高层领导的支持、系统间的数据壁垒、整个治理项目缺乏明确的流程和数据标准、治理流程和问责机制不明确等。数据治理效果不佳,自然也影响到了企业中所有跨功能和跨业务的决策机制。数据治理具有战略性、长期性、艰巨性、系统性,需要持续进行企业内部数据环境优化治理工作,因此数据治理不是一蹴而就、一竿见影的,它是一个漫长、持续方见成效的过程,所以要避免仅仅对数据治理工作有粗浅的认识。

数据治理与企业大数据分析与应用之间的关系如下。

大数据分析是基于商业目的对海量数据进行采集、整理、加工和多维度分析并提炼数据价值的过程,越来越多的企业也开始推行适合自身的“大数据分析”相关规划,当然,其中重要的推动力是许多企业目前面临数字化转型的巨大压力,而数字化转型的基础则是打通数据,如果数据不通、标准不一致、质量不高,就无法做数据分析。那应该如何打通企业内部数据呢?这就必须要做数据治理。

企业做数据治理,其中很重要的目的是解决应用与应用间的信息共享问题,尤其是重要业务领域之间的数据共享能使各业务领域相互联通。企业中很多数据使用场景(如信用数据、智能物流以及精准营销等),也都是通过数据治理以及各种数据管控、管理措施在后续大数据平台的启动之下构成了业务数据联通以及数据分析提炼、可视化等数据消费的闭环,使企业整体的数字化水平得以提高。

所以在数字化转型宏观体系中,数据治理是基础。企业通过数据治理提升数据质量,建立可靠的数据制度与规范,为各类大数据应用提供源源不断的“优质能源”,才能为业务提供智能化的数据工作环境和数据价值挖掘。