1.2 商业智能技术
商业智能与报表、数据分析、数据可视化等有显著的区别,它是一套完整的解决方案,能有效整合企业中现有数据,快速准确地提供可视化报表及决策依据,从而帮助企业做出明智的经营决策。
1.2.1 数据仓库技术
数据仓库技术来源于数据库,首先简单介绍一下数据库技术,它是信息科技的核心技术,自产生至今,已有较成熟的实践方法、理论基础及相应的技术产品。以数据库为基础,各企业建立起自己的生产业务系统,随着系统的应用,数据规模不断扩大,业务部门的需求也不断增长,为使企业更好地发展,需要一个存储、分析数据的环境。
数据仓库之父比尔·恩门(Bill Inmon)在1991年出版了一本关于数据仓库的书——《建立数据仓库》。在这本书中,他提出了数据仓库的定义,他指出:数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合。
数据仓库与通常的数据库应用系统不同,其更像是一个流程,主要是对分布在企业内部的业务数据进行集成、处理和分析。建立数据仓库的最终目标是为企业提供决策支持,所有的工作都是为了让使用者能够更便捷地查询到所需的信息。
此外,数据仓库具有如下4个方面的基本特征,如图1-4所示。
图1-4 数据仓库基本特征
(1)数据仓库中的数据是面向主题的,而传统数据库是面向应用的。在这一方面,主题就是在较高水平上对企业信息系统中的数据进行分类和分析使用的抽象,每个主题都对应着一个宏观的分析领域。
(2)数据仓库的主题是集成的。该方法来自原始、分散的数据源,在进入数据仓库前,必须对数据源进行不同程度的加工整合、统一和综合。
(3)数据仓库的数据是相对稳定的。数据仓库中的数据反映了一个时期的历史数据,而不仅仅是在线处理的数据,这些数据在整合之后几乎没有被修改。
(4)数据仓库的数据是随着时间不断变化的。数据仓库的稳定性是相对的,并不意味着从数据集成开始到最后删除的整个数据生命周期中,所有数据都不会有任何变化。
1.2.2 ETL技术
在建立数据仓库系统的过程中,最难的部分就是用户需求调查、业务分析及商业模式的设计;而占据了大部分工作时间的就是数据的转换与清理,即ETL(Extract Transform Load的首字母缩写,即数据仓库技术),这部分工作大约占工程总时间的60%~70%。
利用ETL技术,可以为企业构建一个稳健、可扩展、易于维护的数据仓库,从而最大限度地减轻对数据仓库的管理负担,因此,几乎所有企业在建立数据仓库时,都需使用相关的工具来帮助企业尽快完成数据仓库的建设。
数据仓库中的数据导入部分一般是在批处理模式下操作的。数据源以确定的时间频率获取,通常为每日、每星期或每个月,然后,数据仓库的ETL子系统将它们提取、转换和清洗,并将它们导入数据仓库中。
目前,较为流行的ETL工具是商业工具,如MySQL公司的OWB(MySQL Warehouse Builder)、ODI(MySQL Data Integrator),Informatic公司的Informatic,IBM的DataStage,以及微软的SSIS等开源工具。
1.2.3 数据可视化技术
数据可视化技术源于计算机图形学,被应用到科学计算领域,并逐步派生出“科学计算可视化”的概念。其通过把科学数据(包括实际测量中采集到的测绘数据或工程数据)转变为直观的、便于理解的图形图像信息,供研究者分析研究,使得它们能更好地进行观测、模拟和计算。
当我们分析需求和抽取数据时,选用合适的图表进行数据展示,可以清晰有效地传达所要沟通的信息。所以,使用图表是数据可视化中最常见、最重要的策略,而基础图表又最具代表性,可以分为对比型、趋势型、比例型、分布型等,下面逐一进行介绍。
1. 对比型图表
对比型图表一般是比较几组数据的差异,这些差异通过视觉和标记来区分,体现在视图中通常表现为高度差异、宽度差异、面积差异等,如条状图、柱状图、雷达图、气泡图等。
例如,为了比较分析2021年企业每个季度在各个地区的客户流失情况,可以绘制不同地区客户流失量的雷达图,其中7个地区表示7个维度,每个季度的客户流失量均用一个七边形表示,生成如图1-5所示的雷达图。
图1-5 雷达图
2. 趋势型图表
趋势型图表用于反映一段时间内数据的变化趋势,特别是在总体的趋势比单一数据点更为重要时,如折线图、面积图、曲面图等。
折线图用来显示连续的时间间隔或数据跨度的变化,其特征反映了按时间或按顺序分类变化的趋势。
以某企业在2021年上半年每周的销售额和利润额情况为例,我们绘制折线图,其中横轴是周数,即0到26,纵轴是每周的销售额和利润额,并且用不同的点线表示,生成如图1-6所示的折线图。
图1-6 折线图
3. 比例型图表
比例型图表用于展示每一部分占整体的百分比情况,在图表中至少有一个分类变量和数值变量,包括饼图、环形图、旭日图等。
环形图是一类特殊的饼图,它是由两个及以上大小不一的饼图叠加在一起,然后挖去中间的部分所构成的图形。2021年不同地区商品订单量占比分析如图1-7所示。
图1-7 环形图
4. 分布型图表
分布型图表用于研究数据的集中趋势、离散程度等描述性度量,用以反映数据的分布特征,包括散点图、直方图等。
以某企业2021年不同收入等级客户的价值为例,绘制了如图1-8所示的不同收入等级客户的价值分析散点图。
图1-8 散点图
5. 其他类图表
除了以上四种类型的基本图表外,还有一些其他类型的图表,它们在日常可视化分析过程中也会被经常用到,如树状图、瀑布图、股价图等。
下面以股价图为例进行介绍,股价图用来显示股票价格的波动情况,在研究金融数据时经常用到,一般包括股票开盘价、收盘报价等信息。例如,研究2021年某企业股票价格的变化情况,绘制了如图1-9所示的企业股票价格趋势分析的K线图。
图1-9 K线图