2.3 云计算核心架构竞争力衡量维度
从将云计算技术引入传统数据中心所带来的独特商业价值角度看,重点可以从开源与节流两个方面来衡量云计算的核心竞争力。
一、节流(Cost Saving)方面
在业务系统搭建过程中,云计算和虚拟化使得企业及运营商的烟囱式软件应用可以突破应用边界的束缚,充分共享企业范围内、行业范围内甚至全球范围内公用的“IT资源池”,无须采购和安装实际物理形态的服务器、交换机以及存储硬件,而是依赖于向集中的“IT资源池”动态申请所需的虚拟IT资源(或资源集合),就可以完成相关应用的自动化安装部署,从而达到快速搭建支撑自身核心业务的IT系统与基础平台的目的。这种模式可以减少系统搭建的人力和资源投入,降低系统初始构筑成本。
在业务应用执行过程中,依托节能减排及资源利用率最大化原则,实现必要的智能资源动态调度,以完成既定的业务处理或计算任务,并在特性业务处理或计算任务完成后即时地释放相关IT资源供其他企业、行业进一步动态共享,从而实现IT建设与运维成本的大幅度优化与降低。
另外,针对涉及海量数据处理及科学计算的特殊行业,以往依托于造价昂贵小型机、大型机甚至巨型机、高端存储阵列,或者采用通用处理设备需要数月甚至数年才能完成的复杂计算与分析任务,有可能在云计算数据中心基于通用服务器集群,以更为低廉的成本并花费更短的时间就可以轻松应对。
二、开源(Revenue Generation)方面
针对公有云数据中心运营商的价值:将SaaS等早在云计算概念出现就已普及的资源服务的概念进一步扩展到IaaS与PaaS层,云计算数据中心运营商可以在IaaS/PaaS上建设自营增值业务服务于云用户,也可引入众多第三方应用运行在IaaS/PaaS云平台之上,实现相比传统数据中心托管服务具备更高附加值的虚拟机、虚拟桌面及虚拟数据中心租赁业务,或者在第三方应用开发/提供商、云运营商(IaaS/PaaS云平台提供者)以及云租户/云用户之间分享丰富的SaaS应用以带来增值利润。
针对企业私有云数据中心建设的价值:云计算使得IT基础架构可以对与企业、行业业务紧密绑定的业务软件形成更为高效和敏捷的集成融合,从而大大提升企业IT资源灵活适应并支撑企业核心业务流程与业务模式快速变化的能力,有效地优化企业业务的运作效率。
云计算的海量数据分析与挖掘能力的价值:使得企业、行业有能力依托其海量存储及并行分析与处理框架的能力,从其企业IT系统所产生的海量的历史数据中提炼并萃取出对其有价值的独特信息与价值,从而为其市场及业务战略的及时优化调整提供智能化决策引擎,从而有效提升企业的竞争力。
基于以上云计算数据中心解决方案商业价值,可以从下面六大架构质量属性指标来衡量云计算数据中心解决方案的竞争力(见图2-33)。
图2-33 云计算架构核心竞争力
2.3.1 低TCO
低TCO能力的构建包括降低和优化云计算数据中心的设备投资成本以及运维成本两个方面。
设备投资成本的优化与节能主要考虑的架构策略涉及如下策略。
一、计算资源的成本优化与节省
站在整体数据中心资源集群成本的视角,针对由以太交换网连接起来的计算密集型服务器构成的计算集群,云计算资源集群初始调度分配以及运行态动态算法的优劣,决定了通过资源占用的削峰错谷可以带来的资源利用率提升,以及相应的成本下降比例。
除调度算法之外,支撑更大规模的集群是实现计算资源CAPEX成本最优化的有效手段,云计算的云资源调度软件通过支持大甚至是超大规模的HA集群(例如:总集群服务器容量达到128服务器/集群),实现对多种大小不同颗粒度的客户服务器集群的容纳,从而降低资源碎片概率,提升资源利用率。
考虑将成本颗粒度从服务器集群细化层面向下细化到单服务器层面,虚拟机VMM引擎在一个服务器范围内的CPU及内存资源调度能否实现跨虚拟机的充分动态共享,则决定了服务器颗粒度内的多虚拟机资源利用率的高低,以及对应的成本竞争力。虚拟化引擎通过支持实时应用调度优化、小包数据中断调度优化,以及内存气泡、内存交换与共享等优化措施来提高服务器级资源利用率。
二、存储资源的成本优化与节省
在普通云计算数据中心环境下,存储容量一般均在几十TB以上,在满足相同容量及IOPS存储吞吐能力需求的基础之上,需从成本角度出发做出权衡抉择,即采用基于集中RAID控制器带一系列存储磁盘的垂直扩展(Scale-up)模式,还是采用基于全分布式及普通服务器附带硬盘存储的水平扩展(Scale-out)模式。通过引入全分布式存储,有望通过差异化架构规避RAID双控制机头随存储容量与处理能力的上升所带来的成本指数级增长的矛盾,从而实现云存储成本的大幅降低及性价比的提升。
三、网络资源的成本优化与节省
在可能的情况下,考虑取消独立硬件形态的汇聚网络交换机及防火墙网关设备,在通用x86平台上支持Load Balancer、防火墙等设备,从而有效降低网络资源的成本占用。由于部分云计算虚拟网络特性(如ACL、安全组等)可能大量消耗CPU资源,需要考虑将相关功能卸载到智能网卡上。
四、维护成本的优化与节省
为实现数据中心大规模计算、存储集群依据多层网络交换设备的维护成本最优化,要求云管理OSS支持最大限度的智能化管理,实现系统在故障状态下对DC内部服务器、网络及存储资源垂直整合的融合架构,一站式交付将大大降低硬件安装维护复杂度。
五、节能减排等生命周期维护成本的节省
为达到数据中心整个运行服务周期中节能减排效率的不断提升,包括在完成相同工作负荷的前提下更为有效地降低服务器、存储及交换设备自身的耗电量,可采用以下几项关键措施:
在云管理层面引入更为优秀的资源调度算法,通过热迁移机制实现将轻载应用尽量合并到数量更少的服务器上,其他服务器则直接下电,从而提升整体资源利用率;
在服务器颗粒度内,引入多级节能控制机制,在轻工作负载时自动调整CPU工作于节能状态;
在硬件选型方面尽可能选择低功耗CPU以及器件、组件以构筑低成本优势,不断改善服务器单板散热布局;
引入分布式电池或者电容,减少由于UPS在空载或轻载情况下的电源效率损失;
在数据中心基础设施层引入更为智能的热管理软件及监测手段,并实现充分的冷热风道隔离,以及热耗散的自动补偿,甚至通过直接拉通来实现整体PUE效率最佳。
2.3.2 弹性伸缩
弹性伸缩要求以相同架构,支撑从最少几个计算与存储节点,到最大10万甚至是100万级的计算与存储节点集群规模,且保证数据中心容量扩展过程中的业务连续性及业务服务不中断,或中断时延最短。
这里的弹性伸缩扩展能力应该体现在:
管理节点的弹性伸缩能力;
数据中心资源的弹性伸缩能力;
所承载云租户业务的计算集群弹性伸缩能力;
承载用户数据信息及系统卷镜像的存储集群的弹性伸缩能力;
连接计算与存储集群资源的网络弹性伸缩能力。
为了支持该能力,数据中心交换枢纽需要支持大二层虚拟化网络,采用CLOS无阻塞以太网连接模型;存储资源需要支持全分布式存储架构;计算资源需要支持大集群规模;管理节点需要支持基于共享存储、无状态机制实现的可无级扩展的管理能力。这些要求是支撑该强弹性伸缩能力的根本保障。
2.3.3 高性能
整体云计算的性能,重点体现在以下几个维度。
虚拟化云平台上运行普通颗粒度托管应用场景:I/O吞吐性能、CPU调度效率等相比同等处理能力物理机平台的下降比例越小,性能竞争力越强。
并发云平台上运行超大规模数据分析与应用处理场景:完成既定任务所耗费的时间越少,或计算、存储资源越少,性能竞争力越强。
频繁数据库操作或媒体类存储信息的应用场景:云存储的IOPS吞吐率最大,可共享的存储容量越大,性能竞争力越强。
云计算数据中心内依赖于网络总线的分布式B/S、C/S应用(如网站)场景:网络时延越短,性能竞争力越强。
批量虚拟机发放、虚拟机系统加载等涉及大流量、大尺寸数据流及文件处理的场景:需要通过包括P2P加载、链接克隆等有效架构手段加以优化,或通过Cache机制减少跨节点性能压力。其依托弹性计算及分布式存储与中间件的并行数据分析引擎,支持批处理及流式海量数据分析与挖掘,从而提升性能。
2.3.4 领先的用户体验
以桌面云应用场景为例,通过局域网络或者远程网络连接的桌面业务体验,包括基础桌面应用操作、音视频播放、VoIP、高清视频以及3D加速图形处理密集型应用,达到与本地桌面体验持平,并在时延、抖动、带宽占用等方面有优势,这决定了直接面向企业及个人家庭最终用户的云业务的质量保障的评价。
2.3.5 高安全
安全性无疑是云计算技术在数据中心建设部署与扩容中被采纳的首要障碍性因素,尤其是公有云场景,该方面的问题更为突出,因而其也是架构竞争力衡量的关键维度。对安全质量属性的需求实际上贯穿于云计算架构的自低向上的各个层面,包括:
物理层的数据中心安全防护,实现硬件层与软件层关联可信度管理的TPM机制;
虚拟化层公共的事件检测、防病毒及安全管理机制;
操作系统安全加固,去除无用服务及安全隐患;
面向云租户/云用户的云资源管理接入认证与加密管理;
面向云资源管理维护者的分权分域及认证鉴权管理,以及面向虚拟私有云的分级资源管理授权能力;
面向云租户/云用户的数据传输加密、解密及网络层安全隔离机制;
面向云租户/云用户,以及云管理员的数据中心边界安全网关、防火墙或者地址隐藏转换机制(集中硬件或分布式软件);
面向云租户/云用户的云存储持久化数据加密、解密及其密钥管理机制;
作为云管理维护及云用户交互界面的Web Portal的应用层安全防攻击机制;
面向云管理者及监管机构的,基于数据中心系统管理与业务日志的安全合规性分析;
托管应用的安全网关(如Email、其他Web应用等,可选)。
2.3.6 高可靠
更高级别的可靠性一直被公认为是集约式的数据中心计算模式,相比传统全分布PC计算模式,其可以提供货架式的、具备量化服务水平保障的增值特性。由于云计算技术的引入,使得数据中心系统的动态计算负载可以进一步以与上层应用无关的形态进行跨越硬件服务器边界的调度,同时数据信息也可通过网络在数据中心内不同持久化存储和计算节点内存之间,甚至是跨地理区域的多个不同数据中心之间进行容灾同步,使得运行于云平台之上的应用相比传统方式,可将更多的精力聚焦于核心业务,而将可靠性保障留给云计算数据中心IaaS服务层来提供。
高可靠性的架构属性保障涵盖如下方面。
云管理节点自身的可靠性保障机制。
承载用户计算负载的计算节点的故障恢复机制:计算节点本地重启故障,以及不可本地重启类的异地恢复类故障发生时,如何在无须维护干预以及应用层特殊处理的前提下,保持业务提供的连续性。
云计算数据中心整体网络的可靠性保障机制。
云存储数据连续服务与数据防丢失保障机制,如硬盘故障、服务器故障、机柜/机框,乃至整个数据中心意外电源及网络故障的容错与恢复能力。