1.3 大数据结构类型
1.大数据存储容量
大数据的存储结构小到以字节来表示,大到NB和DB级别。以210逐级增长。下面表示的是数据由小到大的尺寸和存储容量。最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。
它们按照进率1024(210)来计算。
1KB(KiloByte)=210B
1MB(MegaByte)=210KB
1GB(GigaByte)=210MB=220KB=230B
1TB(TeraByte)=210GB=220MB=230KB=240B
1PB(PetaByte)=210TB=220GB=230MB=240B=250B
1EB(ExaByte)=210PB=220TB=230GB=240MB=250KB=260B
1ZB(ZettaByte)=210EB=220PB=230TB=240GB=250MB=260KB=270B
1YB(YottaByte)=210ZB=220EB=230PB=240TB=250GB=260MB=270KB=280B
1NB(NonaByte)=210YB=220ZB=230EB=240PB=250TB=260GB=270MB=280KB=290B
1DB(DoggaByte)=210NB=220YB=230ZB=240EB=250PB=260TB=270GB=280MB=290KB=2100B
一方面,数据规模的“存量”和“增量”在快速增长。另一方面,人们缺乏对 “大数据”的开发利用能力。大数据爆发式的增长情况如表1-5所示。
表1-5 大数据在各行业增长
2.大数据结构特征
数据的结构化程度直接关系到处理数据的方法选择。传统的和经典的数据都是结构化的,这些数据存储在数据库中,采用相应的数据库技术完成查询和管理需要。而半结构和非结构的数据,就是今天网页和社交媒体产生的大量音频和视频等数据。数据的结构特征可总结为如表1-6所示。
表1-6 大数据结构特征
3.数据的复杂性与多样性
(1)数据的复杂性
复杂数据在可以“成熟的”分析和可视化之前需要额外的准备工作。因此重要的是,通过了解数据的复杂程度及它在未来的复杂性趋向,来评估大数据/商业智能项目是否能够胜任这一任务。多重数据源通常意味着脏数据,或者遵循着不同的内部逻辑结构的、简单的多个数据集。为了确保数据源有统一的数据语言,数据必须被转换或整合到一个中央资源库。数据的复杂性表现为处理大数据或异构数据。
(2)数据的多样性
文本一直是非结构化数据的典型。早期的非结构化数据,在企业数据的语境里主要是文本,如电子邮件、文档和健康/医疗记录等。随着互联网和物联网的发展,又扩展到网页、社交媒体、感知数据,涵盖音频、图片、视频和模拟信号等,真正诠释了数据的多样性。
从另一个维度上看,数据的多样性又表现在数据来源和用途上。卫生保健数据大致有药理学科研数据,临床数据,个人行为和情感数据,以及就诊/索赔记录和开销数据4类。又如交通领域,北京市交通智能化分析平台数据源来自路网摄像头/传感器、地面公交、轨道交通、出租车,以及省际客运、旅游、化学危险品运输、停车和租车等运输行业,还有问卷调查和GIS数据。例如,面对共享单车治理难题,几个车企都提出“大数据”管理思路,并认为将是未来管理的方向。在ofo广州总部,通过大数据管理可以清楚看到每一辆“小黄车”所在位置和编号、每个网格的车辆数量、区域车辆的活跃程度等,车辆数量随着活跃程度的增加,在屏幕上显示由绿色转成红色。图1-8所示为不断增长的数据多样性与复杂性。
图1-8 不断增长的数据多样性与复杂性