上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
2.2.3 系统流程图
本数据仓库系统主要流程如图2-2所示。
前端埋点(指数据采集的技术方式,下同)用户行为数据被日志服务器落盘到本地文件夹,在每台日志服务器中启动一个Flume进程,监控用户行为日志文件夹的变动,并将日志数据进行初步分类,发送给Kafka集群,再配置消费层Flume对Kafka中的数据进行消费,落盘到Hadoop的分布式文件系统HDFS中。
业务数据则需要根据表格的性质制订出适合的数据同步方案,选用适当的数据同步工具,将数据采集至Hadoop的分布式文件系统HDFS中。
数据到达分布式文件系统HDFS中之后,开发人员需要对其进行多种转换操作,最重要的是需要进行初步清洗、统一格式、提取必要信息、脱敏等操作。为了使数据计算更加高效、数据复用性更高,我们还需要对数据进行分层。最终将得到的结果数据导出到MySQL中,方便进行可视化,同时需要为用户提供方便的即席查询通道。
图2-2 本数据仓库系统主要流程