实战大数据:分布式大数据分析处理系统开发与应用
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.1.1 何谓大数据

根据国际数据公司(IDC)做出的预测,数据一直在以每年50%的速度增长,也就是说每两年就增长1.25倍(大数据新摩尔定律)。人类在最近两年产生的数据量相当于之前产生的全部数据量。

而大数据不仅仅是指数据量大,而是包含快速、多样、价值低等多重属性。通常,人们将大数据时代的特点用5V来概括。

Volume:数据量大。从之前的TB级别,已经跃升到PB级别。

Velocity:处理速度快。从数据的生成到消耗,时间窗口非常小,可用于生成决策的时间非常少,因此对速度的要求很高。

Variety:数据类型繁多。大数据是由结构化数据和非结构化数据组成的,其中非结构化数据占比约90%,与人类社会信息密切相关。

Value:价值密度低,这也是大数据的核心特征。现实世界所产生的大量数据中,有价值的数据所占比例很小。例如,在不间断的监控过程中,有用的信息可能只有一两秒,但却具有很高的价值。

Veracity:准确性和可靠性高。例如,通过对用户进行身份验证,可以解决某些数据的真实性问题。