上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
1.1.2 5V:数据的新特征
目前业界普遍认为大数据的特征可以归纳为“5V”,即容量大(Volume)、种类多(Variety)、速度快(Velocity)、价值密度低(Value)和真实性(Veracity)。
容量大,指大数据的数据体量巨大且具有完备性。随着信息技术、网络技术的发展,数据集合的规模迅速扩大,大体量数据已开始以 PB、EB甚至ZB来计数。据IDC统计,全球近90%的数据将在几年内产生,预计到2025年,全球数据量将是2016年的10倍,达到163ZB。
种类多,指大数据包括结构化、半结构化及非结构化等各种类型的数据。网络音视频、图片、地图等现代互联网信息促使非结构化数据大幅增长,同时,随着5G、工业互联网、物联网的发展,产业数据也呈现爆发增长的态势。网络化特性使得数据之间的复杂关联无所不在,进一步对数据处理能力提出了更高要求。
速度快,指大数据产生、处理和分析的速度快。特别是在电子商务、社交、网络搜索等领域,对于定制、精准推送具有较高的实时性要求,分析结果的价值也往往随时空变化而快速衰减,这就要求大数据处理要具有流式计算、图计算等能力。速度快也是大数据区别于传统静态数据挖掘分析的主要特征。
价值密度低,指相对于传统的结构化数据,大数据中的价值信息非但没有随着数据量的增长而成比例增加,反而不断稀释。依据DIKW(数据—信息—知识—智慧)模型,从“杂乱无章”的数据到具有高度价值的智慧,需要云计算、人工智能等不断“淘沙”“提纯”。
真实性,指大数据内容是真实世界发生的事件的镜像,带来了从样本数据到全量数据的转变,数据具有更高的准确性和可信赖度,可以从庞大数据中提取能够解释和预测现实事件的信息,将大数据的分析思维从“因果关系”转变成“关联关系”。