
上QQ阅读APP看书,第一时间看更新
3.3 添加其他大数据组件
在Cloudera Manager中单击“添加服务”选项,如图3-14所示。

图3-14
在添加服务向导中,选择要添加的服务组件,如“Spark(Standalone)”,如图3-15所示。

图3-15
选择Spark角色分配。在Spark集群中重要的角色有Master和Worker:Master负责分配资源;Worker负责监控自己节点的内存和CPU等状况,并向Master汇报。角色分配如图3-16所示。

图3-16
Spark(Standalone)组件安装完成后,如图3-17所示。

图3-17
如果还要安装其他Hadoop生态系统的组件,也可以通过Cloudera Manager统一管理和安装。
第4章 分布式文件系统HDFS
为了解决海量数据存储问题,Google开发了分布式文件系统GFS。HDFS是GFS的开源实现,它是Hadoop的核心组件之一。HDFS提供了在通用硬件集群中进行分布式文件存储的能力,是一个高容错性和高吞吐量的海量数据存储解决方案。