Spark MLlib机器学习实践(第2版)
上QQ阅读APP看书,第一时间看更新

第3章 RDD详解

本章将着重介绍Spark最重要的核心部分RDD,整个Spark的运行和计算都是围绕RDD进行的。RDD可以看成一个简单的“数组”,对其进行操作也只需要调用有限的数组中的方法即可。它与一般数组的区别在于:RDD是分布式存储,可以更好地利用现有的云数据平台,并在内存中运行。

本章笔者将详细介绍RDD的基本原理,讲原理的时候总是感觉很沉闷,笔者尽量使用图形方式向读者展示RDD的基本原理。本章也向读者详细介绍RDD的常用方法,介绍这些方法时与编程实战结合起来,为后续的各种编程实战操作奠定基础。

本章主要知识点:

● 认识RDD,以及它的重要性

● RDD的工作原理

● RDD中常用的方法