1.2.2 自动分层存储_重复数据删除技术：面向大数据管理的缩减技术-QQ阅读武侠男生网

上QQ阅读APP看书，第一时间看更新

1.2.2 自动分层存储

自动分层存储（Automated Tiered Storage）是跨不同存储设备或介质自动进行数据迁移的管理方式，如图1-5所示。这里的数据移动是根据存储介质特点及系统对性能和容量需求，借助一种软件或嵌入式固件自动实现的。更先进的实现方式具有定义规则和策略的能力来控制何时对数据进行跨层迁移。各种不同的实现方式可以划分为两大类：一类是针对通用处理器和通用存储媒介的纯软件实现；另一类是封闭嵌入式存储系统（如SAN存储阵列）中基于固件控制的嵌入式自动分层存储。软件定义存储架构通常都包含分层存储作为基本功能。

图1-5 自动分层存储

自动分层存储是分级存储管理HSM（Hierarchical Storage Management）的一种形式。区别于传统的分级存储管理，自动分层存储能够利用固态硬盘和存储级内存实现更高级的实时数据迁移。传统的分级存储管理系统是批量对文件进行存储层间迁移，而自动分层存储系统能够在子文件级批量或实时迁移数据。为更好地理解自动分层存储，本小节将介绍分级存储管理和生命周期管理的基本内容。

1 分级存储管理

分级存储管理是一种将离线存储与在线存储融合起来的技术。它起源于1978年，首先使用IBM的大型机系统，将磁盘中常用的数据按指定的策略自动迁移到磁带库等二级大容量存储设备上。当需要使用这些数据时，再自动将这些数据从下一级存储设备调回到上一级磁盘中。

分级存储管理就是将不同类别的数据分配到不同类型的存储介质中，目的是提高存储效率，减少总使用成本（TCO）。存储分类基本上是根据应用程序的服务层面的要求，包括可用性、性能、保存要求、使用频率以及其他因素等。这样一方面可大大减少非重要性数据在一级本地磁盘所占用的空间，还可加快整个系统的存储性能。在这里就涉及几种不同性能的存储设备和不同的存储形式。目前常用于数据存储的存储设备主要有固态硬盘、磁盘、磁带和光盘。从性能上来说，固态硬盘和磁盘是最好的，光盘次之，最差的是磁带。而从价格上来说，单位容量成本固态硬盘最贵，磁盘和光盘次之，磁带最低。这就为不同的应用追求最佳性价比提供了条件，因为这些不同的存储媒介可应用于不同的存储方式中。不同的存储形式包括在线存储、近线存储和离线存储。

在线存储（Online Storage），又称工作级的存储，存储设备和所存储的数据时刻保持“在线”状态，是可随意读取的，可满足计算平台对数据访问的速度要求。如PC中常用的磁盘基本上都是采用这种存储形式的。一般在线存储设备为固态硬盘、磁硬盘和硬盘阵列等存储设备，价格相对昂贵，但性能最好。

近线存储（Near-line Storage），指将那些并不经常用到，或者说数据的访问量并不大的数据存放在性能较低的存储设备上。对这些设备要求是寻址迅速、传输率高。因此，近线存储对性能要求相对来说并不高，但由于不常用的数据要占总数据量的大多数，这也就意味着近线存储设备首先要保证的是容量。

离线存储（Offline-Storage），主要用于对在线存储的数据进行备份，以防范可能发生的数据灾难，因此又称备份级的存储。离线海量存储的典型产品就是磁带或磁带库，价格相对低廉。离线存储介质上的数据在读写时是顺序进行的。当需要读取数据时，需要把带子卷到头，再进行定位。当需要对已写入的数据进行修改时，所有的数据都需要全部进行改写。因此，离线海量存储的访问是慢速度、低效率的。

2 信息生命周期管理

信息生来并非平等的，不同的信息具有不同的价值，同一信息在其不同阶段价值也不一样。信息从产生的那一刻起就自然地进入到了一个循环，经过产生、保护、读取、更改、迁移、存档、回收的周期、再次激活以及退出，最终完成一个生命周期，而这个过程必然需要良好的管理，否则，要么是浪费了过多的资源；要么是资源不足降低了工作效率。

信息生命周期管理（Information Lifecycle Management，ILM）作为一种信息管理模型，对信息进行贯穿其整个生命的管理需要相应的策略和技术实现手段，其目标是让信息在其整个生命周期中实现最大价值，使信息在其生命周期的每一点都能以最低的TCO发挥最大的价值。信息生命周期管理的目的在于帮助企业在信息生命周期的各个阶段以最低的成本获得最大的价值。

信息生命周期管理是一种战略，根据信息不断变化的价值，使IT基础结构与业务需要相协调。实施信息生命周期管理战略可以分为三个阶段：

第一个阶段，建立基础结构分类或服务级别，并努力让信息存储在适当的存储层。这一阶段允许利用分层基础结构的价值，尽管是手动进行的，但它为任何基于策略的信息管理奠定了基础。

第二个阶段，完成详细的应用程序和数据分类，以及到业务策略的链接。可以使用工具为一个或多个应用程序自动执行制定的策略，实现存储资源更好的管理和最佳分配。大量消耗IT资源的应用程序，或者能够利用信息生命周期管理快速实现投资回报的应用程序，是本阶段的理想目标。

第三个阶段，为已确立的策略增加自动化功能，将信息生命周期管理的范围扩展到更广大的一组企业级应用程序，并进一步优化基础结构。这一阶段允许尽可能多地利用通用组件和方法，从而可以进一步减少操作和基础结构成本。

利用信息生命周期管理，可以将信息管理与业务目标相对应。这样在数据对业务的价值不断变化时，企业可以按照信息的当前价值来管理数据，从而通过分层存储平台提高资产利用率，实现信息和存储基础结构的简化和自动化管理，获得成本高效的信息存取、业务连续性和保护解决方案。并通过将存储基础结构和管理与信息的价值相匹配，从而以最低的信息持有成本提供最大的信息利用价值。

自动分层存储系统可以在子LUN级（在多数情况下是子文件级）针对不同数据类型进行自动层级化。有了这种能力，系统能够压缩分解不频繁使用的数据。其还可以根据同样的能力进行数据迁移，此外，其也能够比较这些子文件分节段的部分来进行存储和去重。

一个自动分层存储管理系统由以下几个部分构成：

· 在阵列中动态地迁移数据卷的能力。这通常需要一个将逻辑结构与物理结构分离开的虚拟层提供辅助。

· 一个设置规则、收集和保存信息、执行这些规则和监控成功与否的软件层。

· 少量额外的存储空间以执行数据迁移。

很多年前，阵列产品中就开始提供这种动态且非破坏性的迁移功能，一些解决方案甚至提供了阵列之间的数据迁移功能。不过，手动转移阵列的工作是既耗费时间又充满风险的，对于存储管理员来说是相当不利的。实现这一流程自动化的软件产品的出现对于减轻存储管理员负担和最大限度降低故障风险来说是很重要的。

自动分层软件在当今大多数存储阵列里是很常见的。比如说Dell公司在他们的Compellent产品中就有Data Progression，EMC公司的全自动分层存储（FAST），HP公司在他们3PAR阵列里应用的Adaptive Optimization，HDS公司的Dynamic Tiering以及IBM公司的Easy Tier，等等。这些应用在其所支持的层级数量以及给客户能控制的程度有所不同，但从本质上来看，都是基于子LUN的分层技术。