最简数据挖掘
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.2 什么是大数据

我们还是从百度百科开始,它给出的“大数据”定义如下:

“大数据,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。”

这个定义已经捕捉到了大数据的很多重要特征,并且把数据提高到了信息资产的程度,我们认为已经是很不错的定义了。各位读者,对于新概念,我们要宽容,因为一般而言不会有绝对正确和公认的定义。如果硬要“鸡蛋里挑骨头”,这个定义有两点不足。

一是太过强调海量数据带来的技术挑战,实际上之所以大家重视大数据,是看到了其中的巨大价值而不仅是挑战。世界上有挑战的事情很多,比完成一个大数据创新应用更难,为什么它们没有成为国家战略呢?因为价值尚不明确。

二是定义中有些概念也不明确,比如何谓“一定时间范围内”,何谓“常规软件工具”?事实上,很多非常典型的大数据应用也不是必然会处理巨大量的数据,或者用到海量的软件和计算资源。关键还是对于数据价值的认识和数据分析的方法发生了重大的进步。

尽管大数据(Big Data)这个说法可以追溯到几十年前,但是真正系统性阐述大数据的概念并提供了大数据发展第一推动力的,应该是 IBM。

IBM 用 4 个 V 描摹了大数据的特征,分别是 Volume(大量)、Velocity(高速)、Variety(多样)和 Value(低价值密度)。简而言之,大数据就是数据的量很大,数据产生的速度快,并且需要及时、高效的处理,数据的形态多样,数据中蕴含价值但是价值密度很低。对于互联网上涉及的图片和视频数据需要实时响应的业务,这是一个非常恰如其分的描述。但在其他情境下,4V 也不一定都要具备。例如,有些典型的科学大数据(如射电望远镜和粒子对撞机产生的数据)产生速度很快,但是并不需要实时反应,一些重大成果是在获得数据后很多年才得到的。又如,视频数据价值密度很低,但是表格类的数据价值密度却很高,文本数据一般介于其间,所以价值密度是高是低要看数据的形态,有时还要看应用的场景。

总体而言,4V 是能够较好地描述大数据特征的,但是我们如果用这个标准去判断某种应用算不算典型的大数据应用,往往要犯错误。

现在我们走到了所谓的“大数据时代”的门口,主要源于三大趋势。

第一个趋势是数据总量爆炸性的增长

淘宝上有十多亿单品,互联网上存在着数万亿网页。借助无处不在的传感器、智能终端和互联网产品,以及越来越庞大的科研设施,我们每天产生的数据量还在以指数级方式不断增长。截至 2018 年年底,全世界数据存储的总量大约是 20 ZB,也就是 2000 万 PB,这个数字再过七八年还会翻 10 倍,达到 200 ZB。

所以,大数据时代第一个重大的挑战就是日益增长的数据总量和我们普通人分辨甄别数据能力之间的矛盾,我们把它形象地称为数据过载或者信息过载。如何利用优质的数据和先进的算法克服数据过载的问题,帮助用户找到所需要、所喜欢的内容,就是大数据时代的第一个挑战。

第二个趋势是数据的组织形态发生了变化

以前我们接触的绝大多数数据是结构化的,说白了就是一张张的二维表格,(能够用 Excel 打开的内容) 简单且容易分析。但是现在新增数据的绝大部分变 成了非结构化的数据,如语音、图像、视频、社交关系网络、空间移动轨迹等。这些数据的数据量非常大,其中蕴藏着巨大的价值。但与结构化的数据不一样,我们没有一系列普适的算法去挖掘这个价值,这就带来了大数据时代的第二个挑战——如何挖掘非结构化数据中的价值,甚至把它转化为结构化的数据。

第三个趋势是数据的关联形态发生了变化

以前我们也有很多数据,如淘宝中有我们电商购物的记录,新浪微博知道我们关注的朋友和感兴趣的话题,医院知道我们得了什么病。这些数据在相关部门中的价值都非常大,但是数据与数据之间难以融会贯通,就像一个个数据孤岛。所以,我们没有办法知道在淘宝上买了这些东西的某甲,就是在微博上关注了那些人的某甲,更不知道他得了什么病、犯了什么罪。但现在不一样了,我们通过一些商业模式、技术手段,以及资本、产品和政策,可以打通不同领域的数据,让不同平台、不同维度的数据围绕同一个人、同一家企业、同一部手机、同一个位置等关联起来。所以,怎样在安全隐私可控的情况下,使这些跨领域关联的数据产生 11 2 的价值。这是大数据时代的第三个挑战。

这三大趋势也可以理解为相对传统数据分析和商务智能所处理的数据,现在大数据处理对象的三个主要的特征。如果要从理念的角度来看,作者非常认同牛津大学互联网研究所 Mayer-Schonberger 教授的定义[1] 。“大数据所他认为,代表的是当今社会所独有的一种新型的能力——以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务, 或深刻的洞见” 。进一步,作者认为大家对于大数据的期望还不止于此,应该是完全超越技术范围的变革,因此曾经给出过一个如下定义[2]

“大数据是基于多源异构、跨域关联的海量数据分析所产生的决策流程、商业模式、科学范式、生活方式和观念形态上的颠覆性变化的总和。”

还是那句话,对于一个新兴的概念,我们要保持足够的宽容。以上这些定义,很难说哪个是绝对正确或者完美的,但是它们都描绘了大数据一些重要的特征、趋势和理念,把这些内容拼接在一起,对于大数据的基本轮廓,大家应该有一些初步的了解,这也就足够了。等我们看完这本书,相信对于什么是大数据,会有更深刻的理解。