大数据技术原理与应用:概念、存储、处理、分析与应用
上QQ阅读APP看书,第一时间看更新

1.1 大数据时代

1.1.1 第三次信息化浪潮

根据IBM前首席执行官郭士纳的观点,IT领域每隔15年就会迎来一次重大变革(见表1-1)。1980年前后,个人计算机(PC)开始普及,使得计算机走入企业和千家万户,大大提高了社会生产力,也使人类迎来了第一次信息化浪潮,Intel、IBM、苹果、微软、联想等企业是这个时期的标志。随后,在1995年前后,人类开始全面进入互联网时代,互联网的普及把世界变成“地球村”,每个人都可以自由徜徉于信息的海洋,由此,人类迎来了第二次信息化浪潮,这个时期也缔造了雅虎、谷歌、阿里巴巴、百度等互联网巨头。时隔15年,在2010年前后,云计算、大数据、物联网的快速发展,拉开了第三次信息化浪潮的大幕,大数据时代已经到来,也必将涌现出一批新的市场标杆企业。

表1-1 三次信息化浪潮

1.1.2 信息科技为大数据时代提供技术支撑

信息科技需要解决信息存储、信息传输和信息处理3个核心问题,人类社会在信息科技领域的不断进步,为大数据时代的到来提供了技术支撑。

1.存储设备容量不断增加

数据被存储在磁盘、磁带、光盘、闪存等各种类型的存储介质中,随着科学技术的不断进步,存储设备制造工艺不断升级,容量大幅增加,速度不断提升,价格却在不断下降(见图1-1)。

图1-1 存储价格随时间的变化情况

早期的存储设备容量小、价格高、体积大,例如,IBM在1956年生产的一个早期的商业硬盘,容量只有5MB,不仅价格昂贵,而且体积有一个冰箱那么大(见图1-2)。相反,今天容量为1TB的硬盘,大小只有3.5英寸(约8.89厘米),读写速度达到200MB/s,价格仅为400元左右。廉价、高性能的硬盘存储设备,不仅提供了海量的存储空间,同时大大降低了数据存储成本。

图1-2 IBM在1956年生产的一个早期的商业硬盘

与此同时,以闪存为代表的新型存储介质也开始得到大规模的普及和应用。闪存是一种新兴的半导体存储器,从1989年诞生第一款闪存产品开始,闪存技术不断获得新的突破,并逐渐在计算机存储产品市场中确立了自己的重要地位。闪存是一种非易失性存储器,即使发生断电也不会丢失数据,因此,可以作为永久性存储设备,它具有体积小、质量轻、能耗低、抗震性好等优良特性。

闪存芯片可以被封装制作成SD卡、U盘和固态盘等各种存储产品,SD卡和U盘主要用于个人数据存储,固态盘则越来越多地应用于企业级数据存储。一个32GB的SD卡,体积只有24mm×32mm×2.1mm,质量只有0.5克。以前7200r/min的硬盘,一秒钟只有100个IOPS(Input/Output Operations Per Second),速率只有50MB/s,而现在的基于闪存的固态盘,每秒钟有几万甚至更高的IOPS,访问延迟只有几十微秒,允许我们以更快的速度读写数据。

总体而言,数据量和存储设备容量二者之间是相辅相成、互相促进的。一方面,随着数据的不断产生,需要存储的数据量不断增加,对存储设备的容量提出了更高的要求,促使存储设备生产商制造更大容量的产品满足市场需求;另一方面,更大容量的存储设备,进一步加快了数据量增长的速度,在存储设备价格高企的年代,由于考虑到成本问题,一些不必要或当前不能明显体现价值的数据往往会被丢弃,但是,随着单位存储空间价格的不断降低,人们开始倾向于把更多的数据保存起来,以期在未来某个时刻可以用更先进的数据分析工具从中挖掘价值。

2.CPU处理能力大幅提升

CPU处理速度的不断提升也是促使数据量不断增加的重要因素。性能不断提升的CPU,大大提高了处理数据的能力,使得我们可以更快地处理不断累积的海量数据。从20世纪80年代至今,CPU的制造工艺不断提升,晶体管数量不断增加(见图1-3),运行频率不断提高,核心(Core)数量逐渐增多,而同等价格所能获得的CPU处理能力也呈几何级数上升。在30多年里,CPU的处理速度已经从10MHz提高到3.6GHz,在2013年之前的很长一段时期,CPU处理速度的增加一直遵循“摩尔定律”,性能每隔18个月提高一倍,价格下降一半。

图1-3 CPU晶体管数目随时间的变化情况

3.网络带宽不断增加

1977年,世界上第一条光纤通信系统在美国芝加哥市投入商用,数据传输速率为45Mbit/s,从此,人类社会的信息传输速度不断被刷新。进入21世纪,世界各国更是纷纷加大宽带网络建设力度,不断扩大网络覆盖范围和传输速度(见图1-4)。以我国为例,截至2012年6月,92.6%的固定宽带用户接入速率达到或超过2Mbit/s,国际互联网出口带宽达到1.48Tbit/s,是2005年的11.4倍。与此同时,移动通信宽带网络迅速发展,3G网络基本普及,4G网络覆盖范围不断加大,各种终端设备可以随时随地传输数据。大数据时代,信息传输不再遭遇网络发展初期的瓶颈和制约。

图1-4 网络带宽随时间的变化情况

1.1.3 数据产生方式的变革促成大数据时代的来临

数据产生方式的变革,是促成大数据时代来临的重要因素。总体而言,人类社会的数据产生方式大致经历了三个阶段:运营式系统阶段、用户原创内容阶段和感知式系统阶段(见图1-5)。

图1-5 数据产生方式的变革

1.运营式系统阶段

人类社会最早大规模管理和使用数据,是从数据库的诞生开始的。大型零售超市销售系统、银行交易系统、股市交易系统、医院医疗系统、企业客户管理系统等大量运营式系统,都是建立在数据库基础之上的,数据库中保存了大量结构化的企业关键信息,用来满足企业各种业务需求。在这个阶段,数据的产生方式是被动的,只有当实际的企业业务发生时,才会产生新的记录并存入数据库,比如,对于股市交易系统而言,只有当发生一笔股票交易时,才会有相关记录生成。

2.用户原创内容阶段

互联网的出现,使得数据传播更加快捷,不需要借助于磁盘、磁带等物理存储介质传播数据,网页的出现进一步加速了大量网络内容的产生,从而使得人类社会数据量开始呈现“井喷式”增长。但是,互联网真正的数据爆发产生于以“用户原创内容”为特征的Web 2.0时代。Web 1.0时代主要以门户网站为代表,强调内容的组织与提供,大量上网用户本身并不参与内容的产生。而Web 2.0技术以Wiki、博客、微博、微信等自服务模式为主,强调自服务,大量上网用户本身就是内容的生成者,尤其是随着移动互联网和智能手机终端的普及,人们更是可以随时随地使用手机发微博、传照片,数据量开始急剧增加。

3.感知式系统阶段

物联网的发展最终导致了人类社会数据量的第三次跃升。物联网中包含大量传感器,如温度传感器、湿度传感器、压力传感器、位移传感器、光电传感器等,此外,视频监控摄像头也是物联网的重要组成部分。物联网中的这些设备,每时每刻都在自动产生大量数据,与Web 2.0时代的人工数据产生方式相比,物联网中的自动数据产生方式,将在短时间内生成更密集、更大量的数据,使得人类社会迅速步入“大数据时代”。

1.1.4 大数据的发展历程

从大数据的发展历程来看,总体上可以划分为3个重要阶段:萌芽期、成熟期和大规模应用期(见表1-2)。

表1-2 大数据发展的3个阶段

这里简要回顾一下大数据的发展历程。

• 1980年,著名未来学家阿尔文·托夫勒在《第三次浪潮》一书中,将大数据热情地赞颂为“第三次浪潮的华彩乐章”。

• 1997年10月,迈克尔·考克斯和大卫·埃尔斯沃思在第八届美国电气和电子工程师协会(IEEE)关于可视化的会议论文集中,发表了《为外存模型可视化而应用控制程序请求页面调度》的文章,这是在美国计算机学会的数字图书馆中第一篇使用“大数据”这一术语的文章。

• 1999年10月,在美国电气和电子工程师协会(IEEE)关于可视化的年会上,设置了名为“自动化或者交互:什么更适合大数据?”的专题讨论小组,探讨大数据问题。

• 2001年2月,梅塔集团分析师道格·莱尼发布题为《3D数据管理:控制数据容量、处理速度及数据种类》的研究报告。10年后,“3V”(Volume、Variety和Velocity)作为定义大数据的三个维度而被广泛接受。

• 2005年9月,蒂姆·奥莱利发表了《什么是Web 2.0》一文,并在文中指出“数据将是下一项技术核心”。

• 2008年,《自然》杂志推出大数据专刊;计算社区联盟(Computing Community Consortium)发表了报告《大数据计算:在商业、科学和社会领域的革命性突破》,阐述了大数据技术及其面临的一些挑战。

• 2010年2月,肯尼斯·库克尔在《经济学人》上发表了一份关于管理信息的特别报告《数据,无所不在的数据》。

• 2011年2月,《科学》杂志推出专刊《处理数据》,讨论了科学研究中的大数据问题。

• 2011年,维克托·迈尔·舍恩伯格出版著作《大数据时代:生活、工作与思维的大变革》,引起轰动。

• 2011年5月,麦肯锡全球研究院发布《大数据:下一个具有创新力、竞争力与生产力的前沿领域》,提出“大数据”时代到来。

• 2012年3月,美国奥巴马政府发布了《大数据研究和发展倡议》,正式启动“大数据发展计划”,大数据上升为美国国家发展战略,被视为美国政府继信息高速公路计划之后在信息科学领域的又一重大举措。

• 2013年12月,中国计算机学会发布《中国大数据技术与产业发展白皮书》,系统总结了大数据的核心科学与技术问题,推动了中国大数据学科的建设与发展,并为政府部门提供了战略性的意见与建议。

• 2014年5月,美国政府发布2014年全球“大数据”白皮书《大数据:抓住机遇、守护价值》,报告鼓励使用数据来推动社会进步。