Cloudera Hadoop大数据平台实战指南
上QQ阅读APP看书,第一时间看更新

1.1 大数据时代的数据特点

在2015年贵阳国际大数据产业博览会暨全球大数据时代贵阳峰会(以下简称“数博会”)上,阿里巴巴董事局主席马云发表主题演讲。马云在数博会上系统阐述了“DT(Data Technology,数据技术)时代”的特点,DT时代把机器变成人,而这也将改变制造业的局面,释放更多企业的活力——“未来的制造业要的不是石油,它最大的能源是数据”。

凭智商做判断过时了,未来拼的是大数据,那么何为大数据呢?一般认为,大数据主要具有四方面的典型特征——规模性(Volume)、多样性(Variety)、高速性(Velocity)和价值性(Value),即所谓的“4V”。

(1)规模性,即大数据具有相当的规模,其数据量非常巨大。淘宝网近4亿的会员每天产生的商品交易数据约20TB,Facebook(脸书)约10亿的用户每天产生的日志数据超过300TB。数据的数量级别可划分为B、KB、MB、GB、TB、PB、EB、ZB等,而数据的数量级别为PB级别的才能称得上是大数据。根据IDC公司的最新研究,未来10年,全球的数据总量将会增长50倍,以此推算,数据产生的速度越来越快,而且数据总量将呈现指数型的爆炸式增长。

(2)多样性,即大数据的数据类型呈现多样性。数据类型繁多,不仅包括结构化数据,还包括非结构化数据和半结构化数据。其中,结构化数据即音频、图片、文本、视频、网络日志、地理位置信息等。传统的数据处理对象基本上都是结构化数据,而在现实中非结构化数据也是大量存在的,所以既要分析结构化数据又要分析非结构化数据才能满足人们对数据处理的要求。

(3)高速性,即处理大数据的速度越来越快,处理时要求具有时效性,因为数据和信息更新速度非常快,信息价值存在的时间非常短,必须要求在极短的时间下在海量规模的大数据中摒除无用的信息来搜集具有价值和能够利用的信息。所以随着大数据时代的到来,搜集和提取具有价值的数据和信息必须要求高效性和短时性。

(4)价值性。从大数据的表面数据进行分析,进而得到大数据背后重要的有价值的信息,最后可以精确地理解数据背后所隐藏的现实意义。

大数据的价值密度的高低与数据总量的大小成反比。以视频为例,一部1小时的视频,在连续不间断的监控中,有用数据可能仅有一两秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。