轻松学大数据挖掘:算法、场景与数据产品
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

3.1.1 部署CentOS环境

1.安装虚拟机和CentOS系统

在正式环境中都采用物理机来构建分布式集群。大家学习的初衷更多的是为了初步了解Hadoop生态系统,我们自己就可以采取虚拟机的部署。这里提供VirtualBox的下载地址:http://pan.baidu.com/s/1o82TAlW(密码:qozs)。

VirtualBox是免费的虚拟机软件,它不仅具有自己的特色,而且性能优异。安装教程,可以参考在百度的搜索结果,如图3-1所示。CentOS系统的部署,最好选择6.x系列,因为6.x系列较为稳定,如图3-2所示。

图3-1 安装虚拟机(来自百度搜索)

图3-2 安装CentOS系统(来自百度搜索)

查看Linux是Redhat,还是CentOS或Ubuntu,代码如下。

      [root@system1 tmp]# more /etc/issue
      CentOs release 6.5 (Final)

对于Linux系统而言也有32位和64位的区别,如下所示。

      [root@system1 tmp]# more /proc/version
      Linux version 2.6.32-431.el6.x86_64 ...

在内核版本后面会有一个x86_64,表示该Linux系统是64位的。

2.配置CentOs相关环境

为了防止后面操作Hadoop出现异常,优先修改主机名(hostname),具体有以下几个步骤。

步骤1:查看当前的主机名,代码如下。

      [root@hadoop1~]# hostname

步骤2:修改hosts文件(这里修改为hadoop1),代码如下。

      [root@hadoop1~]# vi /etc/hosts
      ip地址  hadoop1

步骤3:修改network文件,代码如下。

      [root@hadoop1~]# vi /etc/sysconfig/network
      NETWORKING=yes
      NETWORKING_IPV6=yes
      HOSTNAME=hadoop1

这三个步骤概括起来就是修改network文件中HOSTNAME的值为hadoop1,或者自己指定的主机名,保证hadoop1在hosts文件中映射为正确的IP地址,然后重新启动网络服务。

      [root@hadoop1~]# /etc/rc.d/init.d/network restart
      # 输出结果
      Shutting down interface eth0:                 [  OK  ]
      Shutting down loopback interface:             [  OK  ]
      Bringing up loopback interface:                [  OK  ]
      Bringing up interface eth0:                   [  OK  ]

还需要配置SSH免密码登录,后期会使用到,代码如下。

      [root@hadoop1~]# cd  /root/.ssh/
      # 清除之前的配置
      [root@hadoop1~]# rm -rf  *
      # 生成密钥,一直Enter
      [root@hadoop1~]# ssh-keygen -t rsa
      # 生成authorized_keys,即可完成
      [root@hadoop1~]# cp id_rsa.pub authorized_keys

考虑到这里不部署分布式集群,所以省了其他流程,只保留最简单的步骤。最终输入ssh hadoop1进行验证即可,代码如下。

      [root@hadoop1~]# ssh hadoop1
      Last login: Mon Apr 17 18:07:262017 from 10.15.82.136