Spark海量数据处理:技术详解与平台实战
上QQ阅读APP看书,第一时间看更新

第1章 序篇

Spark从2009年问世以来,就以星火燎原之势迅速席卷业界。我还记得在2011年左右,在搜索引擎中输入“Spark”的关键字,置顶结果是雪佛兰的Spark汽车,而如今,Spark已经成了事实上的大数据处理的工业标准、技术栈和行业领先解决方案,不得不令人感叹技术的日新月异。

目前Spark项目被托管在GitHub上,从GitHub上的统计来看,Spark无论是从Contributor还是从commit数量上来说,都可以说是最活跃的开源项目之一,如图1-1和图1-2所示。

图1-1 Spark Contributor人数日益增加

图1-2 Spark活跃度

Spark诞生于学界,成长于社区,它利用了开源社区的力量与文化,集中了世界上的一群天才们,夜以继日地为Spark做出贡献,这也是Spark发展迅速的原因之一。本章将介绍Spark的背景、生态圈以及思想,为本书后面的学习打下基础。

本章包含以下内容:

● Spark与BDAS;

● Databricks;

● 如何用GitHub为Spark贡献代码;

● 函数式编程思想。