重复数据删除技术:面向大数据管理的缩减技术
上QQ阅读APP看书,第一时间看更新

3.2 分布式文件系统

面向海量数据管理的分布式存储系统研究,始于20世纪80年代,后来逐渐发展成为国内外研究的热点。分布式存储系统的核心技术是分布式文件系统,包括网络文件系统、SAN集群文件系统和面向对象并行文件系统三种主要类型支持海量数据分布存储管理。

· 网络文件系统研究重点在于实现网络环境下的文件共享,主要解决客户端和文件存储服务器的交互问题;而服务器端的结构基本为对称结构,以每个服务器存储不同目录子树的方式实现扩展。服务器对外提供统一的命名空间,但存储服务器节点之间不共享存储空间,服务器之间缺乏负载均衡和容错机制。代表性网络文件系统有卡内基梅隆大学的AFS[15]和Sun公司的NFS[16]等。

· 存储区域网(Storage Area Network,SAN)用网络取代SCSI总线,可采用条带化技术将一个文件的数据并行写入多个存储节点中,从而显著提高I/O吞吐量。计算节点之间共享存储空间,共同维护统一命名空间和文件数据。但由于共享临界资源的紧耦合特性,计算节点间需要分布式锁进行复杂的协同和互斥操作,使得计算节点规模难以大规模扩展。典型的SAN集群文件系统包括IBM研制的GPFS[17]和VMware公司开发的VMFS[18]等。

· 面向对象并行文件系统利用具有智能处理能力的对象存储设备,并将文件分割为多个对象,分别存储到不同的对象存储设备上,使得文件的元数据得以显著减少;对象存储设备之间完全独立,从而使得其规模可以极大地进行扩展,有效解决了存储系统的容量扩展能力。当前广泛应用的面向对象并行文件系统有:卡内基梅隆大学的Panasas[19]、Oracle公司的Lustre[20]、加州大学Santa Cruz分校的Ceph[21]、Google公司的GoogleFS[22]和Yahoo发起的开源项目HDFS[23]等。

随着通用服务器性能、网络技术以及存储介质的发展和进步,分布式存储系统软件的功能的不断扩展,相对采用专用硬件的传统存储系统而言,在通用标准的开放式硬件平台使用软件也能实现所有的存储功能,这使得软件定义存储(Software Defined Storage,SDS)概念被提出来。相比于传统的分布式文件系统,除了实现存储功能,SDS在扩展性、可用性、灵活性、简化管理、降低总成本等方面具有明显优势。SDS典型的代表有VMware公司的VSAN[24]、EMC公司的ScaleIO[25]、Nutanix公司的NDFS[26]以及华为公司的FusionStorage[26]等产品。

近年来,基于SDS又扩展出支持计算、存储和网络资源三位一体虚拟化共享的超融合架构(Hyper Converged Infrastructure,HCI)概念,它使得多套单元设备可以通过网络聚合起来,实现模块化的无缝横向扩展,形成统一的资源池。由于超融合架构相对于传统分布式架构具有无单点失效、高性能、高可用、易扩展、性价比高、部署和维护简便的优点,传统的服务器厂商结合软件定义存储技术开发出一系列HCI产品。

针对大数据的存储管理挑战要求,当前被学术界和产业界广泛研究的高可扩展分布式文件系统有三种典型开源面向对象并行文件系统:HDFS、Ceph、Lustre。