轻松学大数据挖掘:算法、场景与数据产品
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.1.1 初识SQL

简单来说,SQL是一门编程语言,它是用来操作数据库中的数据的。学习这门语言之前,要思考以下几个问题。

1.为什么学习SQL

毋庸置疑,在大数据生态圈中需要处理很多结构化数据(如图2-1所示),以及在数据挖掘前期的数据清洗和加工,都离不开SQL。

图2-1 结构化数据(来自百度百科)

当然,有一点需要承认。在大数据生态圈里,我们接触更多的是数据仓库Hive的工具语言HQL。那么HQL与SQL的区别是什么呢?

它们除了常用的写法类似,其他方面都不同。为什么需要先学习SQL,而不直接学习HQL呢?

一方面,HQL常用的语法都来源于SQL,学习SQL有助于理解HQL的知识;另一方面,学习SQL很方便,只需要安装MySQL的服务端和客户端,就可以操作数据库中的结构化数据了。

2.学到什么程度呢

编程思想、动手能力、数据清洗和数据加工都是基础知识,必须学得足够扎实。“万地高楼平地起”正是这个道理。每一门学问都不是两三天能够完全掌握的。对于我们而言,也不需要把它学得那么透彻。

所以学习这类学问,遵循以下三句话足矣。

第一句:去其糟粕,学我所需,用我所学。

第二句:活学活用,勤于动手,温故而知新。

第三句:不恋战,不钻牛角尖,待它日,必将恍然大悟。