上QQ阅读APP看书,第一时间看更新
第2章
Spark 2.2技术及原理
Apache官方网站于2017年7月11日发布了Spark Release 2.2.0版本。Apache Spark 2.2.0版本是Spark 2.2系列上的第3个版本。Spark 2.2.0是Spark 2.2中第一个在生产环境可以使用的版本,对于Spark具有里程碑意义。Spark 2.2.0版本中,Structured Streaming的实验性标记(Experimental Tag)已经被移除,此版本更多侧重于系统的可用性(Usability)、稳定性(Stability)以及代码的polish,解决了1100个tickets。此外,只要安装pyspark,在Spark 2.2.0版本中,pyspark可用于pypi。Spark 2.2.0版本移除了对Java 7以及Hadoop 2.5及其之前版本的支持,移除了对Python 2.6的支持。
Apache Spark 2.2.0版本的一些新变化:
Core and Spark SQL核心和Spark SQL。
Structured Streaming结构化流。
MLlib机器学习。
SparkR SparkR计算。
GraphX图计算。
Deprecations弃用。
Changes of behavior行为变化。
Known Issues已知的问题。
Credits贡献者。
如无特殊说明,本书所有内容都基于最新最稳定的Spark 2.2.0版本的源码编写,为体现Spark源码的演进过程,部分核心源码在Spark 1.5.X、Spark 1.6.X、Spark 2.2.X源码的基础上,新增Spark 2.2.0版本的源码,便于读者系统比对、研习Spark源码。