Spark大数据商业实战三部曲:内核解密|商业案例|性能调优
上QQ阅读APP看书,第一时间看更新

第2章
Spark 2.2技术及原理

Apache官方网站于2017年7月11日发布了Spark Release 2.2.0版本。Apache Spark 2.2.0版本是Spark 2.2系列上的第3个版本。Spark 2.2.0是Spark 2.2中第一个在生产环境可以使用的版本,对于Spark具有里程碑意义。Spark 2.2.0版本中,Structured Streaming的实验性标记(Experimental Tag)已经被移除,此版本更多侧重于系统的可用性(Usability)、稳定性(Stability)以及代码的polish,解决了1100个tickets。此外,只要安装pyspark,在Spark 2.2.0版本中,pyspark可用于pypi。Spark 2.2.0版本移除了对Java 7以及Hadoop 2.5及其之前版本的支持,移除了对Python 2.6的支持。

Apache Spark 2.2.0版本的一些新变化:

 Core and Spark SQL核心和Spark SQL。

 Structured Streaming结构化流。

 MLlib机器学习。

 SparkR SparkR计算。

 GraphX图计算。

 Deprecations弃用。

 Changes of behavior行为变化。

 Known Issues已知的问题。

 Credits贡献者。

如无特殊说明,本书所有内容都基于最新最稳定的Spark 2.2.0版本的源码编写,为体现Spark源码的演进过程,部分核心源码在Spark 1.5.X、Spark 1.6.X、Spark 2.2.X源码的基础上,新增Spark 2.2.0版本的源码,便于读者系统比对、研习Spark源码。