1.3 本章小结
本章通过为读者介绍大数据的概念、大数据存储管理挑战以及存储虚拟化、自动精简配置、自动分层存储和数据缩减技术等四种高效能存储管理核心技术等基本知识,为读者阅读和理解后续章节的内容打下良好的基础。后续各章节内容组织如下:
第2章介绍信息存储技术基础。为方便更好地理解大数据管理技术,我们简单介绍一些基本的存储技术知识,包括主要的存储介质、存储接口、存储阵列及网络存储系统架构等方面的内容。
第3章阐述大数据管理技术。针对现有的大数据存储和处理技术,分别介绍以Map-Reduce为代表的分布式计算框架、分布式文件系统为代表的大规模网络存储技术、NoSQL数据库为代表的海量数据管理技术,以及以Hive为代表的类关系型大数据仓库等新一代的计算机技术与体系结构,实现对海量多元数据进行高性能存储与处理。
第4章介绍重复数据删除存储系统架构。首先介绍重复数据删除技术的概念及其分类。其次分析重复数据删除存储系统的体系结构和基本原理,同时也与传统存储系统进行对比。再次重点分析重复数据删除技术的各种主要应用场景。最后介绍重复数据删除存储业界相关产品及开源软件项目。
第5章阐述重复数据删除关键技术。根据重复数据删除处理的流程,依次介绍了数据划分方法、块指纹计算加速方法、块索引查询优化技术、数据还原技术以及垃圾回收机制,再根据重复数据删除存储系统的扩展性、可靠性和安全需求,分别介绍可扩展数据路由技术、高可靠数据配置策略、重删数据安全管理技术。
第6章讲述应用感知源端重复数据删除机制。首先,建立了源端重复数据删除的形式化模型,并分析出客户端局部冗余检测与云端全局冗余检测存在互补。其次,通过大量个人数据统计分析了文件语义指导对重复数据删除效果的影响。再次,设计了客户端局部冗余检测与服务器端全局冗余检测相结合的源端应用感知重复数据删除机制。最后,通过原型系统实现,全面验证和评估了所设计的源端应用感知重复数据删除机制在数据缩减率、备份窗口、能耗利用率、云存储成本和系统开销等方面的优势。
第7章讲述高可扩展集群重复数据删除技术。首先,介绍了相关的研究背景知识。其次,建立了理论模型进行超块相似性分析,并提出了基于手纹的数据路由算法。再次,结合数据局部性和相似性设计了可扩展的在线集群重复数据删除系统框架。最后,通过原型实现和真实数据集测试,对比主流的集群重复数据删除策略,验证了我们的设计在空间利用率、通信开销和负载平衡等方面的优势。
第8章介绍国际主流的重复数据删除存储相关产品的应用案例。首先,阐述企业应用数据集的重复数据删除缩减率影响因素及其评估方法。然后,针对当前国际主流的重复数据删除存储厂商相关产品的应用案例进行介绍。通过这些产品及案例分析,充分展示了重复数据删除技术对大数据存储及保护方面的优势。