轻松学大数据挖掘:算法、场景与数据产品
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.4.2 构建思路

从Hive中清洗加工业务数据,每天通过使用Sqoop工具同步数据到MySQL中。再通过Python调用MySQL中的数据进行分析,需要用到的工具有IPython Notebook、Pandas、NumPy、MySQLdb、E-mail等。

提示:如果集群开放Hive Server 2端口,可以通过Python直接查询集群数据,这样就不用同步导入MySQL了。