1.1 何谓大数据_一本书读懂数字经济-QQ阅读武侠男生网

上QQ阅读APP看书，第一时间看更新

1.1　何谓大数据

大数据，可不仅仅是大量数据的意思。

美国麦肯锡全球研究所给出的定义是：大数据（big data），是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有“4V”特征，即体量巨大（Volume）、类别繁多（Variety）、价值密度低（Value）和处理速度快（Velocity）。

首先，看“大”。“大”不是量词，是一个相对的概念；作为形容词，表示数据“大”到“超出了传统数据库软件工具能力范围”的程度。

1．体量巨大

目前，常见的手机存储容量为128GB，电脑硬盘存储容量为4TB，而大数据的起始计量单位至少是PB（1000个TB）、EB（100万个TB）或ZB（10亿个TB）。

举个例子，从人类文明伊始发展至今，整个文明史全部的藏书数据量加在一起是1TB左右。而大型强子对撞机的运行实验，每秒就能产生40TB的数据。很多年前，百度首页导航每天需要提供的数据，就已超过1.5PB。互联网上的数据每年增长约50%，每两年翻一番。目前，世界上90%以上的数据是最近几年产生的。

2．类别繁多

数据来源不仅限于传统的结构化数据，其中的非结构化数据日益增多，占比已经超过80%。

结构化数据，是指可以用预先定义的数据模型表述的数据，比如你的年龄、身高、体重、民族、学历等。非结构化数据，是指数据结构不规则或不完整、没有预定义的数据模型、不方便用数据库二维逻辑来表现的数据，如网页文章、图片、音频、视频、地理位置信息等。用手机拍照、录视频，从而生成的图片和视频就是非结构化数据。

3．价值密度低

拿视频来说，也许10天不间断监控的视频文件，有价值的仅仅1.2秒。举个例子，在2014年美国波士顿爆炸案中，人们现场调取了10TB的监控数据（包括移动基站的通讯记录，附近商店、加油站、报摊的监控录像，以及志愿者提供的影像资料），最终找到了一张嫌疑犯的照片。

4．处理速度快

数据在线，能够随时被调用和计算，是大数据的本质特征之一，因此数据处理遵循“1秒定律”。比如自动导航、实时监控等，如果不能实时响应，反馈秒级数据，就会失去其价值。

其次，看“数据”。数据一定要在线，即广义互联网（包括传统互联网、移动互联网和物联网等）上的数据。

因此，大数据不仅是大量的数据，而且类别繁多、要求快速处理，以至于传统的数据技术和工具无能为力，并由此催生了很多新的大数据技术。狭义上的大数据技术，主要指的是基于MPP架构的新型数据库集群、专为大数据批量处理而生的Hive、适合实时交互式SQL查询的Impala等；而广义上的大数据技术，则包含了相当一部分的云计算技术、人工智能技术、物联网技术、区块链技术等。

我们以红鲤鱼与大鲸鱼为例。如果把互联网上的数据比作鱼，早期是一条小鲤鱼；大数据，不是大量小鲤鱼，也不是大鲤鱼，而是一条鲸鱼。其具有如下特点。

（1）巨大。这就意味着原本可以塞进鲤鱼的冰箱，必须升级为冰库。

（2）复杂。鲸鱼构成复杂，鲸肉可食用，鲸汁可作润滑剂，鲸油可点灯，内脏可制作香料，各部分都很有价值，必须进行有针对性的处理。

（3）处理及时。鲸鱼必须及时处理，不然会有鲸爆，但是，若用传统大锅炖，效率则太低。

（4）质变。徒手捉鱼，显然不再适用于鲸鱼。由鲸工船、运输船、冷藏船、油船、捕鲸船和拖鲸船等组成的庞大船队是标配，而这意味着一个新时代的到来。

在实际应用中，术语“大数据”的内涵已超出定义本身，我们通常所说的大数据，多半指的是“大数据（现象）”。例如，在统计学中，当能够收集足够的个体数据，并能够不用抽样，直接对所有数据进行统计分析时，也称为“大数据（现象）”。

总之，“大数据”这个词，热度高，混用率也高。在一些书籍、宣传材料和网帖中的“大数据”，除了指大数据（现象），还常指海量数据和大数据技术的结合，有时指海量数据本身，有时也指大数据技术，有时还指大数据应用平台、大数据专业或领域，这时就需要结合上下文来理解。