云数据湖:构建健壮的云数据架构
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.4.1 本地数据仓库解决方案的限制

虽然本地数据仓库能够提供对业务的见解,但此架构存在一些重要限制:

高度结构化的数据

此架构期望数据在每一步都高度结构化。正如前面的例子所揭示的,这个假设完全不现实,数据可以来自任何来源,例如,物联网传感器、社交媒体源和视频/音频文件,也可以是任何格式(JSON、CSV、PNG等)。在大多数情况下,无法强制执行严格的结构。

孤立的数据存储

相同数据的多个副本存储在专用于特定用途的数据存储中。这被证明是一个缺点,因为存储这些相同数据副本的成本很高,并且来回复制数据的过程既昂贵又容易出错,容易导致在复制数据时跨多个数据存储的数据版本不一致。

满足峰值利用率的硬件配置

本地数据仓库要求组织安装和维护运行这些服务所需的硬件。当预计需求会激增时(想想财政年度的预算结束或预计假期期间的更多销售额),需要提前计划此峰值利用率并购买硬件,即使这意味着某些硬件将在其余时间未充分利用。这会增加总拥有成本。注意,这是一个与本地硬件相关的限制,而不是数据仓库和数据湖架构之间的差异。