序
大数据(Big Data)是指具有超大的、难以用现有常规的数据库管理技术和工具处理的数据集,具有数量巨大、类型多样、结构化程度不同、价值密度不均衡、动态特征不一致、应用处理特征不同等特点的信息集合。大数据中包含了结构化数据、半结构化数据和非结构化数据,结构化数据多数是指数字和符号等传统意义上的数据,数据分析可以遵循一定现有规律;而半结构化和非结构化的数据是指各类文本、图片、音视频和网页等,其在分析过程中遵循的规律则是未知的,需通过综合方方面面的信息进行模拟,通过形式化的分析获取结果。
大数据主要有四个特征:第一个特征是数据量大,大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T);第二个特征是数据类型繁多,包括网络日志、音频、视频、图片、地理位置信息等,多类型的数据对数据的处理能力提出了更高的要求;第三个特征是数据价值密度相对较低,如随着物联网的广泛应用,信息感知无处不在,信息海量但价值密度较低;第四个特征是处理速度要求快,时效性要求高,这是大数据区分于传统数据挖掘最显著的特征。
大数据的来源复杂而多样,物联网、云计算、移动互联网、车联网、手机、平板电脑、个人电脑(Personal Computer:PC)以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。天文学、大气科学、基因组学、生物地球化学、生物和其他复杂或跨学科的科研,以及医疗记录、视频档案和大规模的电子商务等也都是产生大数据的源头。
在大数据的应用上,可以是为产生大数据的企事业单位自身服务,通过大数据的开发,获取自身运行数据,为更科学、高效的组织结构安排提供条件;可以通过深入挖掘用户大数据,对其行为、习惯有更为准确的把握,可以不断改善产品和服务,提升用户体验;大数据的挖掘可以为政府部门、军队和企事业单位服务与管理提供依据。
当前,全球已进入以云计算为基础平台架构的大数据应用时代,全球数据量预计将从2009年的0.8ZB(1ZB =1012GB)增长到2020年的35ZB,增长近44倍,年均增长率为40%。随着大数据蕴含价值的逐步释放,使其成为IT产业中最具潜力的应用。在国内的大数据应用已逐步走向实用阶段,但更多的还侧重于数据存储能力建设。发达国家已经明确了大数据的发展方向,主要侧重大数据分析工具研发以及围绕用户提出大数据解决方案,大数据就是网络社会的未来,如IBM的智慧地球,真正体现了战略思考。
大数据技术的战略意义不在于掌握庞大的数据信息,而在于对含有意义的数据进行专业化处理。大数据处理分析常和云计算联系到一起,因为实时的大型数据集处理分析必须采用分布式架构,对海量数据进行分布式数据挖掘,必须依托云计算的分布式处理、分布式数据库、云存储和虚拟化等技术。
云计算和移动互联网的普及使得人们越来越多地在网络上留下信息,这些信息如果被分析和利用,将对个人隐私和安全形成极大的威胁,同时海量数据也增加了信息保护的难度。大数据的存储也存在较大的风险,随着越来越多的信息转移到网络上或是云端,大量的数据也将会失去控制。虽然目前业界就大数据是否安全仍然还有很多争议,但是大数据已然成为未来的发展方向,因此,在云计算基础平台架构中提升大数据的安全是必须考虑的问题。
综上所述,本书开篇讲述了大数据的概念、大数据的产生和大数据的应用,并集中讨论了大数据时代的热点问题,进一步对大数据采集、传输、处理和应用方面存在的安全问题进行了分析。重点强调了大数据与云计算是密不可分的,云计算的架构支撑了大数据处理和大数据应用,大数据安全与云计算安全息息相关。本书也提出了云安全体系架构的概念,并给出了云安全体系架构的参考模型,该模型是由传统安全体系架构演进而来,核心是借助传统安全保障增加措施和手段,凭借云计算平台架构自身的优势来实现大数据安全。
本书共分为4个部分:第1部分为大数据概论,包含4个章节;第2部分为大数据与云计算,包含4个章节;第3部分为大数据与云安全,包含6个章节;第4部分为大数据时代的云安全实践与展望,包含2个章节。下面对书中的重点内容进行简要说明。
(1)大数据的产生
大数据来自一切客观存在的事务,包括从宏观到微观的物理世界、各种生物体、人类社会活动,人类感知、认识和思维的结果。大数据主要来源于两部分:一部分来自于各类传统业务应用系统中产生的数据,这些数据大多是标准化、结构化的;另外一部分则来自于互联网应用系统的数据,包括广泛存在于社交网络、物联网、电子商务等之中的非结构化数据。这些非结构化数据由脸书(Facebook)、推特(Twitter)、领英(LinkedIn)及其他来源的社交媒体数据构成,其产生往往伴随着社交网络、移动计算和传感器等新的渠道和技术的应用。
(2)大数据的处理
大数据的处理包括了大数据采集、大数据预处理、大数据统计分析与大数据挖掘等方面。
大数据的采集是指利用多个数据库来接收发自客户端(Web、App或者传感器形式等)的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。在大数据的采集过程中,其主要特点是并发数高,因为同时有可能会有成千上万的用户来进行访问和操作,所以需要在采集端部署大量数据库才能支撑。
虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的数据清洗和预处理工作。导入与预处理过程的特点主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。
大数据统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性强的需求会用到易安信(EMC)的GreenPlum、甲骨文(Oracle)的Exadata,以及基于MySQL的列式存储Infobright等,而一些批处理或者基于半结构化数据的需求可以使用Hadoop。分析涉及的数据量大,其对系统资源,特别是输入/输出(I/O)会有极大的占用。
与数据统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的策略,主要是在现有数据上面进行基于各种算法的计算,从而起到预测的效果,以实现一些高级别数据分析的需求。比较典型的算法有用于聚类的Kmeans、用于统计学习的支持向量机(SVM)和用于分类的朴素贝叶斯(NaiveBayes),主要使用的工具有Hadoop的数据挖掘库(Mahout)等。该过程的特点主要是用于挖掘的算法很复杂,并且计算涉及的数据量和计算量都很大,常用数据挖掘算法都以单线程为主。
(3)大数据的应用
大数据可能带来的巨大价值正渐渐被人们认可,它通过技术的创新与发展,以及数据的全面感知、收集、分析、共享,为人们提供了一种全新的看待世界的方法。在安防领域,应用大数据技术,提高应急处置能力和安全防范能力;在民生领域,比如医疗、卫生、教育等部门,应用大数据技术,提升服务能力和运作效率,以及个性化的服务。
美国政府在白宫网站发布《大数据研究和发展倡议》,提出“通过收集、处理庞大而复杂的数据信息,从中获得知识,提升能力,加快科学、工程领域的创新步伐,强化美国国土安全,转变教育和学习模式”。中国工程院院士邬贺铨提出 “智慧城市是使用智能计算技术使得城市的关键基础设施组成和服务更智能、互联和有效,随着智慧城市的建设,社会将步入大数据时代”。
(4)大数据的安全风险
发达国家正在利用大数据加强网络安全和国防建设,使得人们对大数据分析增强网络安全充满了信心。云计算和移动互联网的普及使得人们越来越多地在网络上留下信息,这些信息如果被分析和利用,将对个人隐私和安全形成极大的威胁,同时海量数据也增加了信息保护的难度。
大数据分析不仅能够帮助企业实现更加准确的决策,也成为黑客准确定位攻击目标的有效手段。同时,对于已经形成的具有高价值的分析数据,也更容易成为黑客重点窃取的对象,从而为其所用,进行更多的犯罪活动。
除了隐私泄露和可能存在的黑客攻击,大数据的存储也存在极大的风险。随着越来越多的信息转移到网络上或是云端,企业及个人将无法对这些信息进行有效的控制。亚马逊云计算中心的宕机事件就让诸多企业蒙受损失,并且这种云端数据受到的损失较大。
(5)大数据与云计算
云计算与大数据紧密关联,形象地将二者比喻为“静与动”的关系,云计算强调的是计算,这是动的概念;而数据则是计算的对象,是静的概念;大数据的分析、应用和处理依托云计算平台架构来实现。云计算对关系型数据库的发展将产生巨大的影响,而绝大多数大型业务系统、电子商务系统所使用的数据库还是基于关系型的数据库,随着云计算的大量应用,势必对这些系统的构建产生影响,进而影响整个业务系统的运行模式以及电子商务技术的发展。
云计算为大数据提供了可以弹性扩展、成本相对较低的存储空间和计算资源,使得中小企业也可以像亚马逊一样通过云计算来完成大数据分析。云计算IT资源庞大,分布较为广泛,是异构系统较多的企业及时准确处理数据的有力方式,甚至是唯一方式。当然大数据在依托云计算平台架构开展应用时,还要依赖数据通信带宽的提高和云资源的建设,需要确保原始数据能迁移到云环境以及资源池可以随需弹性扩展。随着分析集逐步扩大,企业级数据仓库将成为主流,未来还将逐步纳入行业数据,政府公开数据等多来源数据。
(6)云安全
云安全主要包含两个方面的含义:一是云计算安全,就是云计算自己的安全,包括云计算应用系统安全、云计算应用服务安全、云计算用户信息安全等,是云计算技术健康可持续发展的基础;二是云计算技术在安全领域的具体应用,也称为安全云计算,通过采用云计算技术来提升安全系统的服务效能的安全解决方案,如基于云计算的防病毒技术、挂马检测技术等。
云安全是网络时代信息安全的最新体现,它融合了并行处理、网格计算、未知病毒行为判断等新兴技术和概念。结合云计算技术及服务特点,在明确安全防护需求的基础上,综合采用多种安全技术手段,从物理安全、网络安全、系统安全、应用安全、虚拟化安全、数据安全、管理安全等多个层面,构建层次化的纵深安全防御体系,保障云计算应用安全。
(7)大数据的安全保障
在大数据处理、大数据存储和大数据应用的过程中,数据传输安全、数据访问安全和数据存储安全等问题凸显,传统安全架构解决不了大数据处理、应用和存储的安全问题,需采用“云安全架构”来解决上述大数据时代的安全问题。
云安全架构是保障大数据安全的支撑体系,云安全架构是在传统安全体系架构的基础上发展而来的,继承了传统安全架构在管理、技术和运维层面的优势和特点,融入了大容量并行计算、虚拟化和分布式处理等技术。通过云安全架构可以实现对大数据处理、存储和应用的安全保障,例如对两化融合、物联网和智慧城市等大数据应用的安全保障都需要通过云安全架构来实现。
从大数据和云计算之间互动关系来看,只有为数据建立了严格的安全标准,云计算才能够为大数据提供可扩展性、灵活性和自动化,这也是大数据保持长远发展的重要动力。
(8)大数据安全实践与发展
在依托云安全体系架构来实现大数据安全时,与传统安全相比,大数据安全在安全目标、系统资源类型、基础安全技术方面是相同的;而大数据又有其特有的安全问题,主要包括虚拟化安全问题、与云计算分租服务模式相关的一些安全问题。大体上,可以把大数据安全看做传统安全的一个超集,大数据安全是传统安全在云计算环境下的继承和发展。
尽管基于云计算环境的安全架构还需要继续实践和探索,但是将安全内嵌到云计算环境的虚拟基础网络架构中,并通过安全服务的方式进行交互,不仅可以增强云计算的安全防护能力和安全服务的可视交付,还可以根据风险预警进行实时的策略控制。这将使得云计算的服务交付更加安全可靠,从而实现由传统信息技术应用模式的转变。
基于大数据处理、大数据存储和大数据应用安全保障的云安全体系是未来我国信息安全发展的主要方向,是实现国家信息技术(IT)治理的重要支撑,是实现国家信息安全保障的基础要素与核心能力。