1.2 计算机新技术简介
1.2.1 大数据
1.大数据产生背景
大数据(Big Data)产生的背景主要包括如下四方面:
①数据来源和承载方式的变革。由于物联网、云计算、移动互联网等新技术的发展,用户在线的每一次单击、每一次评论、每一个视频点播就是大数据的典型来源;而遍布全球各个角落的手机、PC、平板电脑及传感器成为数据来源和承载方式。可见,只有大连接与大交互,才有大数据。
②全球数据量出现爆炸式增长。由于视频监控、智能终端、网络商店等快速普及,使得全球数据量出现爆炸式增长,未来数年数据量会呈现指数增长。根据麦肯锡全球研究院(MGI)估计,全球企业2010年在硬盘上存储了超过7EB(1EB=1030GB)的新数据,而消费者在PC和便携式计算机等设备上存储了超过6EB新数据。据互联网数据中心(Internet Data Center,IDC)预测,至2020年全球以电子形式存储的数据量将达32ZB。
③大数据已经成为一种自然资源。许多研究者认为:大数据是“未来的新石油”,已成为一种新的经济资产类别。一个国家拥有数据的规模、活力及解释运用的能力,将成为综合国力的重要组成部分。
④大数据日益重要,不被利用就是成本。大数据作为一种数据资产当仁不让地成为现代商业社会的核心竞争力,不被利用就是企业的成本。因为数据资产可以帮助和指导企业对全业务流程进行有效运营和优化,帮助企业做出明智的决策。
2.大数据的特征
大数据是指无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合。业界通常用“4V”来概括大数据的特征。
①大量化(Volume)指数据体量巨大。随着IT技术的迅猛发展,数据量级已从TB发展至PB乃至ZB,可称海量、巨量乃至超量。当前,个人计算机硬盘的容量为TB量级,而一些大企业的数据量已经接近EB量级。
②多样化(Variety)指数据类型繁多。相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等多类型数据,对数据的处理能力提出了更高要求。
③价值密度低(Value)指大量的不相关信息导致价值密度的高低与数据总量的大小成反比。以视频为例,一部一小时的视频,在连续不间断的监控中,有用数据可能仅有一两秒。因此,如何通过强大的机器算法更迅速地完成数据的价值“提纯”,如何对未来趋势与模式的可预测分析、深度复杂分析(机器学习、人工智能VS传统商务智能咨询、报告等),成为目前大数据背景下亟待解决的难题。
④快速化(Velocity)指处理速度快。大数据时代对其时效性要求很高,这是大数据区分于传统数据挖掘的最显著特征。因为大数据环境下,数据流通常为高速实时数据流,而且需要快速、持续地实时处理;处理工具亦在快速演进,软件工程及人工智能等均可能介入。
3.理解大数据
大数据不仅仅是指海量的信息,更强调的是人类对信息的筛选、处理,保留有价值的信息,即让大数据更有意义,挖掘其潜在的“大价值”,这才是对大数据的正确理解。为此有许多问题需要研究与解决。
提高并发数据存取的性能要求及数据存储的横向扩展问题。目前,多从架构和并行等方面考虑解决。
实现大数据资源化、知识化、普适化的问题。解决这些问题的关键是对非结构化数据的内容理解。
非结构化海量信息的智能化处理问题。主要解决自然语言理解、多媒体内容理解、机器学习等问题。
大数据时代主要面临三大挑战:软件和数据处理能力、资源和共享管理及数据处理的可信力。软件和数据处理能力是指应用大数据技术,提升服务能力和运作效率,以及个性化的服务,如医疗、卫生、教育等。资源和共享管理是指应用大数据技术,提高应急处置能力和安全防范能力。数据处理的可信力是指需要投资建立大数据的处理分析平台,实现综合治理、业务开拓等目标。
4.大数据产生的安全风险
2012年瑞士达沃斯论坛上发布的《大数据大影响》报告称:“数据已成为一种新的经济资产类别,就像货币或黄金一样。”因此,大数据也带来了更多的安全风险。
大数据成为网络攻击的显著目标。在互联网环境下,大数据是更容易被“发现”的大目标。这些数据会吸引更多的潜在攻击者,如数据的大量汇集,使得黑客成功攻击一次就能获得更多数据,无形中降低了黑客的攻击成本,增加了“收益率”。
大数据加大了隐私泄露风险。大量数据的汇集不可避免地加大了用户隐私泄露的风险。因为数据集中存储增加了泄露风险,另外,一些敏感数据的所有权和使用权并没有明确界定,很多基于大数据的分析都未考虑到其中涉及的个体隐私问题。
大数据威胁现有的存储和安防措施。大数据存储带来新的安全问题,数据大集中的后果是复杂多样的数据存储在一起,很可能会出现将某些生产数据放在经营数据存储位置的情况,致使企业安全管理不合规。大数据的大小也影响到安全控制措施能否正确运行。安全防护手段的更新升级速度无法跟上数据量非线性增长的步伐,就会暴露大数据安全防护的漏洞。
大数据技术成为黑客的攻击手段。在企业用数据挖掘和数据分析等大数据技术获取商业价值的同时,黑客也在利用这些大数据技术向企业发起攻击。黑客会最大限度地收集更多有用信息,如社交网络、邮件、微博、电子商务、电话和家庭住址等信息,大数据分析使黑客的攻击更加精准。
大数据成为高级可持续攻击的载体。传统的检测是基于单个时间点进行的基于威胁特征的实时匹配检测,而高级可持续攻击(APT)是一个实施过程,无法被实时检测。此外,大数据的价值低密度性,使得安全分析工具很难聚焦在价值点上,黑客可以将攻击隐藏在大数据中,给安全服务提供商的分析制造很大困难。黑客设置的任何一个会误导安全厂商目标信息提取和检索的攻击,都会导致安全监测偏离应有方向。
大数据技术为信息安全提供新支撑。当然,大数据也为信息安全的发展提供了新机遇。大数据正在为安全分析提供新的可能性,对于海量数据的分析有助于信息安全服务提供商更好地刻画网络异常行为,从而找出数据中的风险点。对实时安全和商务数据结合在一起的数据进行预防性分析,可识别钓鱼攻击,防止诈骗和阻止黑客入侵。网络攻击行为总会留下蛛丝马迹,这些痕迹都以数据的形式隐藏在大数据中,利用大数据技术整合计算和处理资源,有助于更有针对性地应对信息安全威胁,有助于找到攻击的源头。