1.1 何谓大数据
大数据,可不仅仅是大量数据的意思。
美国麦肯锡全球研究所给出的定义是:大数据(big data),是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有“4V”特征,即体量巨大(Volume)、类别繁多(Variety)、价值密度低(Value)和处理速度快(Velocity)。
首先,看“大”。“大”不是量词,是一个相对的概念;作为形容词,表示数据“大”到“超出了传统数据库软件工具能力范围”的程度。
1.体量巨大
目前,常见的手机存储容量为128GB,电脑硬盘存储容量为4TB,而大数据的起始计量单位至少是PB(1000个TB)、EB(100万个TB)或ZB(10亿个TB)。
举个例子,从人类文明伊始发展至今,整个文明史全部的藏书数据量加在一起是1TB左右。而大型强子对撞机的运行实验,每秒就能产生40TB的数据。很多年前,百度首页导航每天需要提供的数据,就已超过1.5PB。互联网上的数据每年增长约50%,每两年翻一番。目前,世界上90%以上的数据是最近几年产生的。
2.类别繁多
数据来源不仅限于传统的结构化数据,其中的非结构化数据日益增多,占比已经超过80%。
结构化数据,是指可以用预先定义的数据模型表述的数据,比如你的年龄、身高、体重、民族、学历等。非结构化数据,是指数据结构不规则或不完整、没有预定义的数据模型、不方便用数据库二维逻辑来表现的数据,如网页文章、图片、音频、视频、地理位置信息等。用手机拍照、录视频,从而生成的图片和视频就是非结构化数据。
3.价值密度低
拿视频来说,也许10天不间断监控的视频文件,有价值的仅仅1.2秒。举个例子,在2014年美国波士顿爆炸案中,人们现场调取了10TB的监控数据(包括移动基站的通讯记录,附近商店、加油站、报摊的监控录像,以及志愿者提供的影像资料),最终找到了一张嫌疑犯的照片。
4.处理速度快
数据在线,能够随时被调用和计算,是大数据的本质特征之一,因此数据处理遵循“1秒定律”。比如自动导航、实时监控等,如果不能实时响应,反馈秒级数据,就会失去其价值。
其次,看“数据”。数据一定要在线,即广义互联网(包括传统互联网、移动互联网和物联网等)上的数据。
因此,大数据不仅是大量的数据,而且类别繁多、要求快速处理,以至于传统的数据技术和工具无能为力,并由此催生了很多新的大数据技术。狭义上的大数据技术,主要指的是基于MPP架构的新型数据库集群、专为大数据批量处理而生的Hive、适合实时交互式SQL查询的Impala等;而广义上的大数据技术,则包含了相当一部分的云计算技术、人工智能技术、物联网技术、区块链技术等。
我们以红鲤鱼与大鲸鱼为例。如果把互联网上的数据比作鱼,早期是一条小鲤鱼;大数据,不是大量小鲤鱼,也不是大鲤鱼,而是一条鲸鱼。其具有如下特点。
(1)巨大。这就意味着原本可以塞进鲤鱼的冰箱,必须升级为冰库。
(2)复杂。鲸鱼构成复杂,鲸肉可食用,鲸汁可作润滑剂,鲸油可点灯,内脏可制作香料,各部分都很有价值,必须进行有针对性的处理。
(3)处理及时。鲸鱼必须及时处理,不然会有鲸爆,但是,若用传统大锅炖,效率则太低。
(4)质变。徒手捉鱼,显然不再适用于鲸鱼。由鲸工船、运输船、冷藏船、油船、捕鲸船和拖鲸船等组成的庞大船队是标配,而这意味着一个新时代的到来。
在实际应用中,术语“大数据”的内涵已超出定义本身,我们通常所说的大数据,多半指的是“大数据(现象)”。例如,在统计学中,当能够收集足够的个体数据,并能够不用抽样,直接对所有数据进行统计分析时,也称为“大数据(现象)”。
总之,“大数据”这个词,热度高,混用率也高。在一些书籍、宣传材料和网帖中的“大数据”,除了指大数据(现象),还常指海量数据和大数据技术的结合,有时指海量数据本身,有时也指大数据技术,有时还指大数据应用平台、大数据专业或领域,这时就需要结合上下文来理解。