2.2 HDFS常用操作_实战Hadoop-QQ阅读男生玄幻网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

2.2 HDFS常用操作

了解了关于HDFS的基本知识之后，这一小节将介绍一些常用的HDFS操作。

2.2.1 HDFS下的文件操作

1.列出HDFS文件

此处为读者展示如何通过“-ls”命令列出HDFS下的文件：

/usr/hadoop-0.20.2$ bin/hadoop dfs -ls

执行结果如图2-3所示。在这里读者需要注意：在HDFS中未带参数的“-ls”命令没有返回任何值，它默认返回HDFS的“home”目录下的内容。在HDFS中，没有当前工作目录这样的一个概念，也没有cd这个命令。

图2-3 列出HDFS文件

2.列出HDFS目录下某个文档中的文件

此处为读者展示如何通过“-ls 文件名”命令浏览HDFS下名为in的文档中的文件：

/usr/hadoop-0.20.2$ bin/hadoop dfs -ls in

执行结果如图2-4所示。

图2-4 列出HDFS下名为in的文档下的文件

3.上传文件到HDFS

此处为读者展示如何通过“-put 文件1 文件2”命令将hadoop-0.20.2目录下的test1文件上传到HDFS上并重命名为test：

/usr/hadoop-0.20.2$ bin/hadoop dfs -put test1 test

执行结果如图2-5所示。在执行“-put”时只有两种可能，即是执行成功和执行失败。在上传文件时，文件首先复制到DataNode上。只有所有的DataNode都成功接收完数据，文件上传才是成功的。其他情况（如文件上传终端等）对于HDFS来说都是做了无用功。

图2-5 成功上传test1到HDFS

4.将HDFS中的文件复制到本地系统中

此处为读者展示如何通过“-get文件1文件2”命令将HDFS中的in文件复制到本地系统并命名为getin：

/usr/hadoop-0.20.2$ bin/hadoop dfs -get in getin

执行结果如图2-6示。与“-put”命令一样，“-get”操作既可以操作文件，也可以操作目录。

图2-6 成功将HDFS中的in文件复制到本地系统

5.删除HDFS下的文档

此处为读者展示如何通过“-rmr 文件”命令删除HDFS下名为out的文档：

/usr/hadoop-0.20.2$ bin/hadoop dfs -rmr out

执行结果如图2-7所示。

图2-7 成功删除HDFS下的out文档

6.查看HDFS下某个文件

此处为读者展示如何通过“-cat 文件”命令查看HDFS下in文件中的内容：

/usr/hadoop-0.20.2$ bin/hadoop dfs -cat in/*

执行结果如图2-8所示。

图2-8 HDFS下in文件的内容

bin/hadoop dfs的命令远不止这些，本小结介绍的命令已可以让读者在HDFS上完成大多数常规操作。对于其他操作，读者可以通过“-help commandName”命令所列出的清单来进行进一步学习与探索。

2.2.2 管理与更新

1.报告HDFS的基本统计信息

此处为读者展示通过“-report”命令如何查看HDFS的基本统计信息：

$ bin/hadoop dfsadmin -report

执行结果如图2-9所示。

图2-9 HDFS基本统计信息

2.退出安全模式

NameNode在启动时会自动进入安全模式。安全模式是NameNode的一种状态，在这个阶段，文件系统不允许有任何修改。安全模式的目的是在系统启动时检查各个DataNode上数据块的有效性，同时根据策略对数据块进行必要的复制或删除，当数据块最小百分比数满足配置的最小副本数条件时，会自动退出安全模式。

系统显示“Name node is in safe mode”，说明系统正处于安全模式，这时只需要等待17秒即可，也可以通过下面的命令退出安全模式：

$ bin/hadoop dfsadmin -safemode leave

成功退出安全模式结果如图2-10所示。

图2-10 成功退出安全模式

3.进入安全模式

在必要情况下，可以通过以下命令把HDFS置于安全模式：

$ bin/hadoop dfsadmin -safemode enter

执行结果如图2-11所示。

图2-11 进入HDFS安全模式

4.添加节点

可扩展性是HDFS的一个重要特性，向HDFS集群中添加节点是很容易实现的。添加一个新的DataNode节点，首先在新加节点上安装好Hadoop，要和NameNode使用相同的配置（可以直接从NameNode复制），修改$HADOOP_HOME/conf/master文件，加入NameNode主机名。然后在NameNode节点上修改$HADOOP_HOME/conf/slaves文件，加入新加节点主机名，再建立到新加节点无密码的SSH连接，运行启动命令：

$ bin/start-all.sh

通过http://（Master node的主机名/IP）：50070可查看到新的DataNode节点ubuntu1添加成功，如图2-12所示。

图2-12 成功添加DataNode节点ubuntu1

5.负载均衡

HDFS的数据在各个DataNode中的分布可能很不均匀，尤其是在DataNode节点出现故障或新增DataNode节点时。新增数据块时NameNode对DataNode节点的选择策略也有可能导致数据块分布的不均匀。用户可以使用命令重新平衡DataNode上的数据块的分布：

$ bin/start-balancer.sh

执行结果如图2-13所示。

图2-13 HDFS数据块负载均衡

命令执行前，DataNode节点上数据的分布情况如图2-14所示。

图2-14 负载均衡前的数据分布情况

负载均衡完毕后，DataNode节点上数据的分布情况如图2-15所示。

图2-15 负载均衡后的数据分布情况