剑指大数据:企业级数据仓库项目实战(在线教育版)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.1 前期调研

在建设数据仓库之前,要充分地调研企业的业务和需求。这是搭建数据仓库的基石,业务调研与需求分析是否充分,直接决定了数据仓库的搭建能否成功,对后期数据仓库总体架构的设计、数据主题的划分都有重大影响。前期调研主要从以下几个方面展开。

1.业务调研

企业的实际业务是涵盖很多业务领域的,不同的业务领域又包含多条业务线。数据仓库的构建要涵盖企业所有的业务领域,还是每个业务领域单独建设,是需要重点考虑的问题,在业务线方面也面临着同样的问题,所以在构建数据仓库之前,要对企业的业务进行深入调研,研究了解企业的各个业务领域、不同的业务领域都各自包含哪些业务线、业务线之间存在哪些相同点和不同点、业务线是否可以划分为不同的业务模块等问题。在构建数据仓库时要对以上问题进行充分考量,本项目中不涉及业务领域的划分,但是有多条业务线,如课程管理、考试管理、用户管理等,所有业务线统一建设数据仓库,可为企业决策提供全方面支持。

2.需求调研

对业务系统有充分的了解并不意味着可以实施数据仓库建设了,还需要充分收集数据分析人员、业务运营人员的数据诉求和报表需求。需求调研通常从两方面展开,一方面是根据与数据分析人员、业务运营人员和产品人员的沟通获取需求,另一方面是对现有的报表和数据进行研究分析获取数据建设需求。

例如,业务运营人员想了解最近7天所有课程的下单金额,针对该需求我们来分析需要用到哪些维度数据和度量数据,明细宽表又应该如何设计。

3.数据调研

数据调研是指在构建数据仓库之前做好数据探查工作,充分了解数据库类型、数据来源、每天产生的数据体量、数据库全量数据大小、数据库中表的详细分类,还需要对所有数据类型的数据格式有充分的了解,如是否需要清洗、是否需要做字段一致性规划、如何从原始数据中提炼出有效信息等。

例如,本项目中的数据类型主要是用户行为数据和业务数据,那么就需要充分地了解用户行为数据的数据格式,对业务数据的表类型进行细致划分。