
1.1.2 大数据的分类
大数据的种类很多,可以依照不同标准进行分类。
1.按照大数据结构特征分类
按照大数据结构特征,可以将大数据分为结构化数据、非结构化数据和半结构化数据。
(1)结构化数据,是指有结构的数据,即行数据,在得到数据之前,其结构就是确定的。比如,传统的关系数据模型,可用二维结构表示。二维表中的数据就是典型的结构化数据,其结构事先通过数据模型的定义确定下来,在处理过程中不会改变。
(2)非结构化数据,是指没有结构的数据,无法用数据库的二维逻辑结构来表现。包括所有格式的文档、文本、图片、视频、音频、各类报表。它们通常没有数据模型,无法进行结构化处理。
(3)半结构化数据,是指介于结构化数据和非结构化数据之间的数据。半结构化数据也是有结构的数据,与结构化数据不同的是,半结构化数据是先有数据,再有结构。半结构化数据一般是自描述的,数据的结构和内容混合在一起,没有明显的区分,其数据模型是数和图。常见的半结构化数据有XML文档、HTML文档、JSON文档、日志文件等。
2.按照大数据获取处理方式分类
按照大数据获取处理方式,可以将大数据分为批处理数据和流式计算数据。数据的批处理是指对数据进行批量的处理,如对数据进行成批的增加、修改、删除等操作。因此,批处理数据通常是在一段时间内已采集并存储好的静态数据集,具备数据有界、持久存储和大容量的特征。流式计算是指可以在实时处理的应用环境中,对大规模流动数据在不断变化的前提下进行持续计算、分析并能捕捉到有价值信息的分布式计算模式。流式计算数据具有实时性、易失性、突发性、无序性和无限性的特点。大数据的批处理和流式计算的区别如表1.1所示。
表1.1 大数据批处理与流式计算的比较

3.按照其他方式分类
按照大数据处理响应性能,可以将大数据分为实时数据、非实时数据和准实时数据;按照大数据关系,可以将大数据分为简单关系数据和复杂关系数据,如Web日志是简单关系数据,社会网络等具有复杂关系的图计算则属于复杂关系数据。