在对数据进行处理之前,需要将数据转化成Hadoop能够辨识的格式,其后才能开始处理。但大规模数据的数据转换与传输本身就是一项极艰难的任务,同时又要符合Hadoop数据处理的要求。在已有的格式不能够满足Hadoop分布式存储和传输需要的基础上,Hadoop自定义了一套特有的文件I/O系统。