在介绍完Spark基本组成部分与功能后,读者应该能够理解为什么笔者将Spark比喻成一个运行在分布式存储系统中的数据集合了。
从这一章开始,我们将接触到MLlib的使用,学习MLlib的基本数据类型的种类与用法,同时也将学习如何组合利用这些基本数据类型去进行一些统计量的计算,这是数据分析和挖掘的基本内容。
本章主要知识点:
● MLlib基本数据类型
● MLlib的一些基本概念
● 统计量的一些计算