上QQ阅读APP看书，第一时间看更新

3.3 添加其他大数据组件

在Cloudera Manager中单击“添加服务”选项，如图3-14所示。

图3-14

在添加服务向导中，选择要添加的服务组件，如“Spark（Standalone）”，如图3-15所示。

图3-15

选择Spark角色分配。在Spark集群中重要的角色有Master和Worker：Master负责分配资源；Worker负责监控自己节点的内存和CPU等状况，并向Master汇报。角色分配如图3-16所示。

图3-16

Spark(Standalone)组件安装完成后，如图3-17所示。

图3-17

如果还要安装其他Hadoop生态系统的组件，也可以通过Cloudera Manager统一管理和安装。

第4章分布式文件系统HDFS

为了解决海量数据存储问题，Google开发了分布式文件系统GFS。HDFS是GFS的开源实现，它是Hadoop的核心组件之一。HDFS提供了在通用硬件集群中进行分布式文件存储的能力，是一个高容错性和高吞吐量的海量数据存储解决方案。