上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

第3章包装大数据分类体系

3.1 大数据概述

3.1.1 大数据定义

“大数据”的概念早已有之，1980年著名未来学家阿尔文·托夫勒便在《第三次浪潮》一书中，将大数据热情地赞颂为“第三次浪潮的华彩乐章”。但是直到近几年，“大数据”才与“云计算”“物联网”一道，成为互联网信息技术行业的流行词汇。2008年，在谷歌公司成立10周年之际，著名的《自然》杂志出版了一期专刊，专门讨论未来的大数据处理相关的一系列技术问题和挑战，其中就提出了“Big Data”的概念。2011年5月，在以“云计算相遇大数据”为主题的EMC World 2011会议中，EMC也抛出了Big Data的概念。所以，很多人认为，2011年是大数据元年。

此后，诸多专家、机构从不同角度提出了对大数据的理解。当然，由于大数据本身具有较强的抽象性，目前国际上尚没有一个公认的定义。

研究机构Gartner给出了这样的定义：“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

麦肯锡曾说：“大数据指的是所涉及的数据集规模已经超过了传统数据库软件获取、存储、管理和分析的能力。这是一个被故意设计成主观性的定义，并且是一个关于多大的数据集才能被认为是大数据的可变定义，即并不定义大于一个特定数字的TB才叫大数据。因为随着技术的不断发展，符合大数据标准的数据集容量也会增长；并且其定义随不同的行业也有变化，这依赖于在一个特定行业通常使用何种软件和数据集有多大。因此，大数据在今天不同行业中的范围可以从几十TB到几十PB。”

维基百科认为大数据是超过当前现有的数据库系统或数据库管理工具处理能力，处理时间超过客户能容忍时间的大规模复杂数据集。全球排名第一的企业数据集成软件商Informatica认为大数据包括海量数据和复杂数据类型，其规模超过传统数据库系统进行管理和处理的能力。亚马逊网络服务（AWS）大数据科学家JohnRauser提到一个简单的定义：大数据就是任何超过了一台计算机处理能力的庞大数据量。百度搜索的定义为：“大数据”是一个体量特别大，数据类别特别大的数据集，并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。《互联网周刊》的定义为：“大数据”的概念远不止大量的数据（TB）和处理大量数据的技术，而是涵盖了人们在大规模数据的基础上可以做的事情，而这些事情在小规模数据的基础上是无法实现的。换句话说，大数据让我们以一种前所未有的方式，通过对海量数据进行分析，获得有巨大价值的产品和服务，或深刻的洞见，最终形成变革之力。

综合上述不同的定义，我们认为，大数据至少应包括以下两个方面：一是数量巨大，二是无法使用传统工具处理。因此，大数据重要的不是关于如何定义，最重要的是如何使用。它强调的不仅是数据的规模，更强调从海量数据中快速获得有价值信息和知识的能力。

随着“大数据”的出现，数据仓库、数据安全、数据分析、数据挖掘等围绕大数据商业价值的利用正逐渐成为行业人士争相追捧的利润焦点，在全球引领了又一轮数据技术革新的浪潮。

3.1.2 用3V（4V）描述大数据特征

从字面来看，“大数据”这个词可能会让人觉得只是容量非常大的数据集合而已。但容量只不过是大数据特征的一个方面，如果只拘泥于数据量，就无法深入理解当前围绕大数据所进行的讨论。因为“用现有的一般技术难以管理”这样的状况，并不仅仅是由于数据量增大这一个因素所造成的。

IBM提出：“可以用三个特征相结合来定义大数据—数量（Volume，或称容量）、种类（Variety，或称多样性）和速度（Velocity），或者说就是简单的3V，即庞大容量、极快速度和种类丰富的数据。”

1. Volume（数量）

用现有技术无法管理的数据量，从现状来看，基本上是指从几十TB到几PB这样的数量级。当然，随着技术的进步，这个数值也会不断变化。

如今，存储的数据数量正在急剧增长中，我们存储所有事物，包括环境数据、财务数据、医疗数据、监控数据等。有关数据量的对话已从TB级别转向PB级别，并且不可避免地会转向ZB级别。可是，随着可供企业使用的数据量不断增长，可处理、理解和分析的数据的比例却不断下降。

根据国际数据资讯（IDC）公司监测，全球数据量大约每两年就翻一番，预计到2020年，全球将拥有35.2ZB的数据，并且85%以上的数据以非结构化或半结构化的形式存在，如图3-1所示。

图3-1 数据发展预测图

根据IDC的全球数据使用情况及预测可分析，之所以产生如此巨大的数据原因有三点：

（1）由于互联网络的广泛应用，使用网络的用户、企业、机构增多，数据获取、分享变得相对容易。用户可通过网络非常方便地获取数据，通过有意的分享和无意的点击、浏览可快速地提供大量的数据。

（2）随着各种传感器数据获取能力的大幅度提高，使得人们获取的数据越来越接近原始事物本身，描述同一事物的数据激增。

（3）由于集成电路的价格降低，使得很多信息都保存了下来。

2. Variety（多样性）

随着传感器、智能设备以及社交协作技术的发展，企业的数据也变得更加复杂，因为它不仅包含传统的关系型数据，还包含来自网页、互联网日志文件（包括单击流数据）、搜索索引、社交媒体论坛、电子邮件、文档、主动和被动系统的传感器数据等原始、半结构化和非结构化的数据。

种类表示所有的数据类型。其中，爆发式增长的一些数据，如互联网上的文本数据、位置信息、传感器数据、视频等，用企业中主流的关系型数据库是很难存储的，它们都属于非结构化数据。

当然，在这些数据中，有一些是过去一直存在并保存下来的。和过去不同的是除了存储，还需要对这些大数据进行分析，并从中获得有用的信息。例如监控摄像机中的视频数据。近年来，超市、便利店等零售企业几乎都配备了监控摄像机，最初目的是防范盗窃，但现在也出现了使用监控摄像机的视频数据来分析顾客购买行为的案例。

例如，美国高级文具制造商万宝龙（Montblane）过去是凭经验和直觉来决定商品陈列布局的，现在尝试利用监控摄像头对顾客在店内的行为进行分析。通过分析监控摄像机的数据，将最想卖出去的商品移动到最容易吸引顾客目光的位置，使得销售额提高了20%。

3. Velocity（速度）

数据产生和更新的速度，也是衡量大数据的一个重要特征。就像我们收集和存储的数据量和种类发生了变化一样，生成和需要处理数据的速度也在变化。不要将速度的概念限定为与数据存储相关的增长速率，应动态地将此定义应用到数据，即数据流动的速度。有效处理大数据需要在数据变化的过程中对它的数量和种类进行分析，而不只是在它静止后进行分析。

例如，遍布全国的便利店在24小时内产生的POS机数据、电商网站中由用户访问所产生的网站点击流数据、高峰时达到每秒近万条的微信短文、全国公路上安装的交通堵塞探测传感器和路面状况传感器（可检测结冰、积雪等路面状态）等，每天都在产生着庞大的数据。

IBM在3V的基础上又归纳总结了第4个V—Veracity（真实和准确）。“只有真实而准确的数据才能让对数据的管控和治理真正有意义。随着社交数据、企业内容、交易与应用数据等新数据源的兴起，传统数据源的局限性被打破，企业愈发需要有效的信息治理以确保其真实性及安全性。”

IDC（互联网数据中心）说：“大数据是一个貌似不知道从哪里冒出来的大的动力，但是实际上，大数据并不是新生事物。然而，它确实正在进入主流，并得到重大关注，这是有原因的。廉价的存储、传感器和数据采集技术的快速发展、通过云和虚拟化存储设施增加的信息链路，以及创新软件和分析工具，正在驱动着大数据。大数据不是一个‘事物’，而是一个跨多个信息技术领域的动力活动。大数据技术描述了新一代的技术和架构，其被设计用于通过使用高速（Velocity）的采集、发现和分析，从超大容量（Volume）的多样（Variety）数据中经济地提取价值（Value）。”

这个定义除了揭示大数据传统的3V基本特征，即Volume（数量）、Variety（多样性）和Velocity（速度），还增添了一个新特征—Value（价值）。

4. Value（价值性）

这也是大数据的核心特征。在现实世界所产生的数据中，有价值的数据所占比例很小。

大数据实现的主要价值可以基于下面三个评价准则中的一个或多个进行评判：

● 它提供了更有用的信息吗？

● 它改进了信息的精确性吗？

● 它改进了响应的及时性吗？

相比于传统的小数据，大数据最大的价值在于通过从大量不相关的各种类型的数据中，挖掘出对未来趋势与模式预测分析有价值的数据，并通过机器学习方法、人工智能方法或数据挖掘方法深度分析，发现新规律和新知识，并运用于农业、金融、医疗等各个领域，从而最终达到改善社会治理、提高生产效率、推进科学研究的效果。

总之，大数据是个动态的定义，不同行业根据其应用的不同有着不同的理解，其衡量标准也随着技术的进步而改变。

狭义上，大数据的定义着眼于数据的性质上，我们在广义层面上再为大数据下一个定义：“所谓大数据，是一个综合性的概念，它包括因具备3V（Volume、Variety、Velocity）特征而难以进行管理的数据，对这些数据进行存储、处理、分析的技术，以及能够通过分析这些数据获得实用意义和观点的人才和组织。”

“存储、处理、分析的技术”指的是用于大规模数据分布式处理的框架Hadoop、具备良好扩展性的NoSQL数据库，以及机器学习和统计分析等；“能够通过分析这些数据获得实用意义和观点的人才和组织”指的是目前十分紧俏的“数据科学家”这类人才，以及能够对大数据进行有效运用的组织。

3.1.3 大数据的结构类型

大数据具有多种形式，从高度结构化的财务数据，到文本文件、多媒体文件和基因定位图等任何数据，都可以称为大数据。由于数据自身的复杂性，作为一个必然的结果，处理大数据的首选方法就是在并行计算的环境中进行大规模并行处理（Massively Parallel Processing，MPP），这使得同时发生的并行摄取、并行数据装载和分析成为可能。实际上，大多数的大数据都是非结构化或半结构化的，这需要不同的技术和工具来处理和分析。

大数据最突出的特征是它的结构。未来数据增长的80%～90%将来自不是结构化的数据类型（半结构化、准结构化和非结构化）。

不同的、相分离的数据类型，实际上，有时是可以被混合在一起的。例如，有一个传统的关系数据库管理系统保存着一个软件支持呼叫中心的通话日志，这里有典型的结构化数据，如日期/时间戳、机器类型、问题类型、操作系统，这些都是在线支持人员通过图形用户界面上的下拉式菜单输入的。另外，还有非结构化数据或半结构化数据，如自由形式的通话日志信息，这些可能来自包含问题的电子邮件，或者技术问题和解决方案的实际通话描述。另外一种可能是与结构化数据有关的实际通话的语音日志或者音频文字实录。即使是现在，大多数分析人员还无法分析这种通话日志历史数据库中的最普通和高度结构化的数据，因为挖掘文本信息是一项强度很高的工作，并且无法简单地实现自动化。

人们通常最熟悉结构化数据的分析，然而，半结构化数据（XML）、“准”结构化数据（网站地址字符串）和非结构化数据代表了不同的挑战，需要不同的技术来分析。

第3章 包装大数据分类体系