大数据分析与挖掘
上QQ阅读APP看书,第一时间看更新

2.1 数据类型

数据挖掘的对象种类繁多,描述这些对象的数据类型也形式各异,如关系数据、结构化的文本文件、半结构化的网页、更复杂的多媒体数据文件等。这些数据都是用来刻画对象的各种特征,数据挖掘就是从这些特征中发现新的知识。在一个特定的数据挖掘任务中,输入数据的类型一般是由其应用的性质决定的。例如,在智能商务领域中,数据集往往是关系型的数据;在工业领域中,数据集含有大量的时间序列数据;在网络应用中,数据集是大量非结构化的文本数据,如网页或者日志文件等。

不同的算法对所处理的数据都有特定的要求,如对数据的格式、数据属性的类型、量纲、值域等都有其适应性要求。

下面首先介绍几种常见的数据集类型,然后再介绍数据所具有的各种属性及其特有的操作。