数据仓库结构设计与实施
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第1章 数据仓库技术与应用概述

乱生于治,治乱,数也。

夫未战而庙算胜者,得算多也;未战而庙算不胜者,得算少也;多算胜,少算不胜,而况于无算乎?吾以此观之,胜负见矣。

——孙子

数据仓库是以关系数据库、并行处理与分布式处理技术,以及联机分析处理等技术的发展为基础,为解决当前企业和组织中虽然拥有大量数据但信息贫乏(难以利用)的现状而提出的,是一种对不同系统数据实现集成和共享的综合性解决方案。

从普通数据库与数据仓库的关系来看,人们把普通数据库技术称为传统的数据库技术。传统的数据库往往是以单一的数据资源(即以数据库为中心)进行事务处理、批处理、决策分析等各种数据处理工作。数据处理模式主要划分为两大类:操作型处理和分析型处理(或信息型处理)。操作型处理也叫事务处理,是指对数据库联机的日常操作,它通常是对一个或一组记录的查询和修改,主要是为企业的特定应用服务的,基本上满足了响应时间、数据的安全性和完整性的需要;分析型处理则用于管理人员的决策分析,往往是大规模的、批量的计算作业,经常要访问大量的历史数据。也就是说,传统数据库系统能够完成企业的日常事务处理工作,但很难达到实现数据分析处理的要求,也无法满足数据处理多样化的要求。随着用户需求的发展,操作型处理和分析型处理的分离就成为必然。

近年来,随着信息化的发展和技术的进步,信息已成为人类社会不可或缺的重要资源。社会的信息化使得信息量急剧增长。面对数据量的急剧增长和应用要求的不断提升,数据库技术的应用和发展也有了更高的作用和价值。数据库技术一直力图使自己能胜任当前的发展变化,完成从事务处理、批处理到分析处理的各种类型的信息处理任务。虽然业务扩充了,但还是要在统一数据格式、统一数据模型下来实现业务操作的数据处理。对于决策分析,在业务操作层面上进行分析判断还存在着很大的局限性。于是,人们尝试对来自操作型处理数据库中的数据进行再加工,形成一个综合的、面向分析的环境,以更好地支持决策分析,这就形成了数据仓库(Data Warehousing,简称DW)技术。作为决策支持系统(Decision-making Support System,简称DSS)的数据仓库系统包括数据仓库技术、联机分析处理技术(On-Line Analytical Processing,简称OLAP)、数据挖掘技术(Data Mining,简称DM)。

数据仓库弥补了原有数据库的不足,将原来的以单一数据库为中心的数据环境发展为一种新的体系环境。它具有一种新的数据处理结构体系,能够将不同环境、不同系统的数据统一起来,以形成综合的中央数据仓库。


◣ 1.1 数据仓库的基本概念

业界公认的数据仓库概念创始人W.H.Inmon在《建立数据仓库》一书中对数据仓库给出的定义是:数据仓库就是面向主题的、集成的、稳定的(不可更新)、随时间变化(不同时间)的数据集合,它用以支持经营管理中的决策制定过程。

1.1.1 数据仓库的系统体系

数据仓库是以计算机应用为基础的信息系统,用来支持在各领域的决策分析。数据仓库作为一个集成了许多数据源的中央数据库系统,从许多不同的(分散的、互不联系的)联机事务处理数据源收集和提取数据,并通过一系列汇总计算将数据组织成易于分析的形式,从而为企业提供了一个信息集成平台,为管理人员和决策者迅速地提取信息并回答有关业务运作的问题提供支持。因此,数据仓库是企业信息资产的核心,是管理信息系统的“上层建筑”。

1.1.2 数据仓库的应用目标

数据仓库和普遍的事务处理数据库不同,它是面向主题(以主题为导向)的,支持商务决策而不是事务处理。它拥有许多优化设计的层次、总计方阵系列和结构化的查询功能,并以总计/综合系统为构架。基于对数据快速和有效的分析,数据仓库可为决策系统提供强有力的支持。在开发人员和用户的协同配合和精心设计下,它能够实现对数据的一系列转化,包括从数据到信息,从信息到知识,最终到商业智能。

数据仓库最根本的特点之一是存放数据,而且这些数据包含历史数据,并且来源于各种数据库。数据仓库的建立并不是要取代操作性事务处理数据库(事务处理数据库在企业的信息环境中承担的是日常业务操作的任务),相反,它依赖于操作性事务处理数据库,并以此为基础,建立一个综合的和完善的信息分析应用系统,用于支持各级管理层决策分析。数据仓库是数据库技术的一种新模式,一般也是用关系数据库系统来管理其中的数据。