上QQ阅读APP看书,第一时间看更新
3.数据安全问题
如此庞大的数据量,会给数据安全带来压力。传统的Raid保护模式下,单盘故障后的重建周期会极大提升,可能会达到周级,期间会有很高概率出现双盘失效从而丢失数据。为此人们设计出了新型的Raid,比如Raid 2.0数据分布模式,可以大大缩短数据恢复的时间。在数据的容灾方面,庞大的数据量会导致容灾的RTO和RPO双双增加。
综上所述,如果能够降低数据保有量,无形中就会降低成本并提高性能。所以,就催生了使用软件技术来降低数据量的方式。在前端,可以从数据产生的源头入手,比如剔除一些垃圾数据;在后端,则可以从存储系统角度入手,用一些普适性的技术来直接缩减数据量,比如实时的压缩/解压,或者识别并剔除一些冗余的数据。
重复数据删除(Deduplication)技术是近几年来兴起并广泛落地的一种数据缩减技术。其对数据进行分块,然后分别计算哈希指纹,并对指纹进行比对以查找冗余数据块,具有良好的普适性和缩减率。重复数据删除技术目前已经被广泛应用于商用存储系统中,包括SAN/NAS/分布式存储系统,已经成为标配特性。另外,很多SSD也在其主控内部实现了重删技术,以延长SSD的寿命。在一些容灾备份产品中,普遍采用了源端重删技术,以缩减数据量,从而节省远程同步所需的时间。
目前,市面上对重复数据删除技术进行讲解分析的书籍很少见,而本书应该是解了燃眉之急,其对重复数据删除技术的背景、原理、场景做了一个非常好的综述和演绎,是不可多得的存储特定技术领域的书籍。我在此向大家郑重推荐本书,同时也感谢本书作者为业界提供了一本优秀的书籍。
——《大话存储》《大话计算机》
作者 冬瓜哥