企业级大数据项目实战:用户搜索行为分析系统从0到1
上QQ阅读APP看书,第一时间看更新

1.1 项目需求

随着互联网的迅速发展,Web系统在满足大量用户访问的同时,几乎每天都在产生大量的用户行为数据(用户在使用系统时通过点击、浏览等行为产生的日志数据)及业务交互数据。通过对这些行为数据进行分析可以获取用户的浏览行为,挖掘数据中的潜在价值,从而更好地、有针对性地进行系统的运营。然而随着日志数据每天上百吉字节地增长,传统的单机处理架构已经不能满足需求,此时就需要使用大数据技术并行计算来解决。

本书通过“用户搜索行为分析系统”项目从0到1、手把手讲解如何使用大数据技术对搜索引擎中的海量用户搜索日志数据进行用户行为分析,最终实现以下需求:

· 实时统计前10名流量最高的搜索词。

· 使用可视化图表实时展示统计结果。

· 统计一天中上网用户最多的时间段。

· 统计用户访问最多的前10个网站域名。

· 分析链接排名与用户点击的相关性。

· 统计每天搜索数量前3名的搜索词(热点搜索词统计)。

· 搜索引擎每日UV(Unique Visitor,独立访客)统计。

对于实时统计,最终将使用柱形图以可视化的形式在浏览器中实时动态展示并排名,展示效果如图1-1所示。

图1-1 可视化柱形图实时展示搜索词访问量

图1-1柱形图的横坐标表示用户搜索的关键词,纵坐标表示关键词对应的搜索访问数量。