1.2 大数据的基本概念和特征
大数据是当前的热门话题,人人都在谈论它,但我们需要从纷繁的议论中看到事物的本质。究竟什么是大数据?它的本质特征是什么?大数据在技术上包含哪些内容?怎样让大数据应用落地?本节介绍大数据的基本概念,探讨大数据的基本特征。
1.2.1 基本概念
在舍恩伯格和库克耶编写的《大数据时代》一书中,大数据被定义为不用随机分析法(抽样调查)这样的捷径,而采用全量模式进行分析处理的数据。
事实上,有关大数据的定义目前并没有一个统一的说法,这也反映出了大数据作为快速发展中事物的特点。以下是几个比较典型的大数据定义。
维基百科给出的定义是:大数据是指无法在一定时间内用常规软件工具对其内容进行采集、存储、处理和应用的数据集合。
百度百科给出的定义是:大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。而大数据技术,则是指从各种各样类型的大数据中,快速获得有价值信息的方法或能力。
我们认为,大数据是互联网发展到一定阶段后,数据爆炸性增长的一种态势,这种态势具有强烈的时代特征。所以,给大数据下定义,不能脱离互联网,也需要包含以云计算为代表的技术创新。因此,我们给出的大数据定义是:大数据是指在互联网和以大规模分布式计算为代表的平台支持下被采集、存储、分析和应用的具有产生更高决策价值的巨量、高增长率和多样化的信息资产。显然,这个定义更加全面和准确。
1.2.2 基本特征
为了深入理解大数据的概念,有必要分析一下大数据的基本特征。
目前,人们普遍采用4V表示大数据的特征:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。下文解释了4V的含义。
大量,就是指数量巨大。互联网上的数据每年增长50%,每两年便将翻一番,目前世界上90%以上的数据是最近几年才产生的。据IDC预测,到2020年全球的数据量将达到35 ZB。互联网是大数据发展的前提,随着Web 2.0时代的发展,人们似乎已经习惯了将自己的生活通过网络进行数据化,方便分享以及记录并回忆。这里有必要指出,巨量是大数据的首要特性。在很多场合,少量数据就有很高的应用价值,但是,这并不表示数据越少越好,少量有价值的数据或信息是从大数据中挖掘出来的,没有大数据,就没有这些小数据。在大数据时代,决策被置于全量式和全景式的环境下。
高速,这是大数据的关键特性。高速的本质是在线,这不一定意味着绝对速率高,真正有革命意义的是数据是在线数据,这恰恰是互联网的特点。数据在线远比数据量大更能反映大数据的本质。例如,Uber系统需要大量交通数据支持,如果这些数据是离线的,就没有什么用;为什么淘宝数据值钱,就是因为在线,写在纸上或磁带上的数据效率极其低下。其实,大数据以前也有,但仅仅只有数据量大是没有用处的。又如,欧洲粒子物理对撞实验室做一次碰撞产生的数据是巨大的,如果不采用在线分布式并行处理,恐怕无法获得有意义的实验结果。
多样,表示数据的来源与形态具有包罗万象的特点,这是大数据的自然属性,因为人类生活本身是极具多样性的。目前,由网络日志、条码与射频识别(RFID)、传感器网络、工业生产过程、政府社会管理、社交网络、互联网文本和文件、互联网搜索引擎、呼叫详细记录、视频监控、天气预报、基因测序、军事侦察、医疗记录、影音档案、银行交易记录、大规模电子商务等系统或活动产生的数据,已经成为大数据的主要来源。
价值,一方面指数据即生产力,即具有决策价值,被比喻为新时代的石油和黄金;另一方面,也表示大数据的价值密度很低。例如,几小时的监控视频中可能有价值的就两三秒,其价值需要通过数据过滤、清洗、挖掘和呈现等多个处理步骤才能展现出来。价值是大数据的基本属性,人类的决策要依靠数据,在大数据时代,数据的决策价值得到了空前的提升。