数据中台:让数据用起来(第2版)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.4.4 数据中台与数据湖

数据湖(Data Lake)是一个以原始格式存储数据的存储库或系统。它按原样存储数据,而无须事先对数据进行结构化处理。数据湖可以存储结构化数据(如关系型数据库中的表)、半结构化数据(如CSV、日志、XML、JSON)、非结构化数据(如电子邮件、文档、PDF)和二进制数据(如图形、音频、视频)等。

数据湖最初的目的是存储多种格式的数据。因为数据的价值难以在短期内挖掘,但是数据所包含的信息又可能在未来的某一时刻极其重要,所以为了把当前阶段难以挖掘的数据保存下来,以便在未来随时使用,人们提出了数据湖的概念。也就是说,利用相对廉价的存储方式,把企业尽可能多的数据存入数据湖,再在适当的时间点根据需要从数据湖中提取出需要处理的数据进行加工。

但是随着数据湖概念和技术的发展,数据湖已经不只是个数据存储池,而逐步融入了数据集成、数据处理、数据管理、数据挖掘、数据分析等一系列技术架构,与数据中台的定义越来越接近。总体上看,国外更多人提数据湖,而国内提数据中台的比较多。笔者认为,数据湖可以与数据中台结合,数据中台是个更大范围的体系,数据中台的目标是管控好整个企业或者组织的数据,让数据尽可能服务于业务,提供价值。而数据湖可以作为数据中台的全量数据汇集存储的环境,数据湖的数据最终还是要通过治理和挖掘服务于业务,采集、存储、管理、挖掘、使用这些功能组件可以与数据中台融为一体。数据湖就是企业的全量数据资源池,通过数据中台这套体系来管理,通过数据中台的数据服务能力让数据更充分地利用起来。