云计算环境下的信息资源集成与服务
上QQ阅读APP看书,第一时间看更新

2.1.2 MapReduce 2.0的优化

MapReduce 1.0的主要局限性体现在可靠性及可扩展性差、资源利用率低以及计算模式的单一等几方面Dean J, Ghemawat S. MapReduce: Simplified Data Processing on Large Clusters[J].Communications of the ACM, 2008, 51(1): 107-113.。为此,人们将YARNVavilapalli V K, Murthy A C, Douglas C, et al. Apache Hadoop Yarn: Yet Another Resource Negotiator[C]//Proceedings of the 4th Annual Symposium on Cloud Computing, 2013, Santa Clara, USA.引入MapReduce之中,将MapReduce 1.0中的资源管理功能交由YARN完成,进而提出了下一代MapReduce计算框架——MapReduce 2.0,如图2-1所示。MapReduce 2.0中资源管理和作业控制为两个独立的进程,不仅减轻了Master节点的负载,而且使MapReduce可以支持多种计算框架。

图2-1 从MapReduce 1.0到MapReduce 2.0

随着大数据时代的到来及计算技术的不断发展,人们针对不同需求提出了多种计算框架(MapReduce、Tez、Spark、Storm、Druid等,见表2-1),这些计算框架进一步呈现出相互集成的发展趋势。其中,MapReduce和Spark是现阶段最为广泛应用的计算框架。

表2-1 几种常用的计算框架