1.1 大数据概述
大数据是一个修辞学意义上的词汇。何谓“大”数据?其存着四个层面的含义,如图1-1所示。
图1-1 大数据的含义
在数据方面,“大”(big)是一个大量、快速发展的术语,因而其自身的发展变化而引起的社会竞争的激烈化也就显而易见了,其中,越来越多的企业参与到大数据的竞争中就是其表现之一。在这一形势下,了解大数据的相关知识就很有必要了。本节将从三个方面简述大数据的相关知识,如图1-2所示。
图1-2 大数据概述
1.1.1 大数据的产生
大数据谓之“大”,是纵向上演变、发展和横向上累积的结果,如图1-3所示。
图1-3 大数据之“大”
由图1-3可知,大数据的出现和技术处理是大势所趋,是其自身与外界发展变化的产物。自然,其也有一个产生发展的过程,如表1-1所示。
表1-1 大数据产生的历史背景
随着TI产业的迅速发展,在新兴的IT供应商主导下,已有的计算机规范被重新定义,于是引起了以云计算、物联网为代表的新技术变革,大数据即是如此。
数据量的暴增是大数据产生的前提,而全球智能手机和移动设备激增则是数据量爆炸的一个重要原因,如图1-4所示。
图1-4 数据量对比
由图1-4可知,数据处于迅速增长趋势下,笔者认为,在这一社会基础上,在以“一切都被记录、一切都被数字化”为核心理念的数据化的发展趋势下,“大数据”应运而生,如图1-5所示。
图1-5 大数据的产生
1.1.2 大数据的特征
所谓“大数据”,即大量的、海量的数据,这一定义主要是从数据量的多寡程度来说的。这从另一方面说明了大数据最重要的一个特征——数据体量庞大。在我们常接触的存储产品中,其所用来计算的一般都用EB、GB或TB级别来表示,而大数据直接从TB级别跃升到了PB、EB级别,甚至ZB级别。
专家提醒
数据基本单位换算:1YB=1024ZB;1ZB(Zettabyte)=1024EB;1EB(Exabyte)=1024PB;1PB(Petabyte)=1024TB;1TB(Trillionbyte)=1024GB;1GB(Gigabyte)=1024MB;等等。
由此可见,目前的数据量是一个多么庞大的数字和单位呈现,其数据体量庞大的特征由此可见一斑。截至目前,人类历史上所生产的印刷材料的数据体量已有200PB,人类说过的话的数据量为5EB左右。
其实,大数据的特征除了其数据大量(Volume)外,还可以从其多样(Variety)、价值(Value)、高速(Velocity)方面来说,总称为“4V”特征。
从数据类型方面来说,大数据呈现类型的多样性特征,出现了与传统意义上以文本为主的结构化数据之外的非结构化数据,如图1-6所示。
图1-6 大数据类型的多样性
从价值方面来说,大数据呈现价值密度低的特征。与大数据庞大的体量相比,其价值密度就显得尤为低。如图1-6中所说的视频文件为例,可能1小时的视频中有用的数据仅就一两秒,换成分式的话就是个位数的n/3600,其价值密度之低显而易见了。在大数据体量庞大的基数上如何迅速地实现其数据价值的“提纯”是目前亟待解决的问题。
从处理速度方面来说,一个“快”字就可以说明一二,这也是大数据与传统数据挖掘之间区别最显著的特征。随着数据体量的不断增大,如何更好、更快地处理企业经营、管理等方面的数据成为其将来竞争的重点之一。
1.1.3 大数据的发展趋势
目前,人们对“大数据”这一概念的认知已经超出了其数据形式本身的范畴,作为一种企业必要的元素和企业应用联系起来。从这一方面来说,大数据的发展呈现三个明显趋势:作为一种企业资产存在,新兴产业的垂直整合,以及“四位一体”的泛互联网化。
1.数据作为一种企业资产存在
在信息时代,数据是作为经济生产中一种独立的生产要素而存在的,而不是作为单纯的数字形式存在于人们的认知框架中,随之而来的是其在社会这一大环境下意义的改变,如图1-7所示。
图1-7 “数据”的含义改变
在“数据”含义发生改变的大环境下,目前的互联网三巨头的发展对“数据”这一名词做了完备的诠释,如图1-8所示。
图1-8 互联网三巨头的数据资产
上述三巨头在互联网行业方面发展迅速并有着独特领域的发展优势,可以说,它们引领着行业的发展方向,相对于其他行业来说,有着压倒性的发展优势。
2.新兴产业的垂直整合
任何一种新兴产业的发展,它们往往首先需要在纵向上尽力整合社会资源才能有所发展和成就,假如以“不求甚解”的姿态对待新兴企业的发展,一味地在横向上拓宽,这种发展方式是不可取的,其结果将是流于表层的混合发展,从市场前景方面来说,是不长久的。
新兴企业只有在取得一定的成就即公司产品成熟之后才有能力实现在水平分工上的资源整合,优势也逐渐向横向上的企业发展改变倾斜,如图1-9所示。
图1-9 产品市场格局
信息产业作为一种新兴产业,其行业垂直整合趋势明显,这也是移动大数据环境下其大数据效应改变产品市场格局的重要表现。
3.“四位一体”的泛互联网化
泛互联网化,即互联网在社会中的泛化以及社会各要素与互联网的融合,如图1-10所示。
图1-10 泛互联网化的表现
在泛互联网化形势下,大数据、终端、平台和应用四个方面成为盈利的主要来源。其中,泛互联网化是大数据获得的重要渠道,反过来,大数据的发展也进一步促进社会向泛互联网化迈进。