MapReduce 2.0源码分析与编程实战
上QQ阅读APP看书,第一时间看更新

第3章 “吃下去吐出来”——Hadoop文件I/O系统详解

在对数据进行处理之前,需要将数据转化成Hadoop能够辨识的格式,其后才能开始处理。但大规模数据的数据转换与传输本身就是一项极艰难的任务,同时又要符合Hadoop数据处理的要求。在已有的格式不能够满足Hadoop分布式存储和传输需要的基础上,Hadoop自定义了一套特有的文件I/O系统。