1.1.1 基本概念
在给出数据挖掘的定义之前,我们首先给出数据、信息和知识的定义,它们之间的关系如图1-1所示。
数据(Data):是以文本、数字、图形、声音和视频等形式对现实世界中的某种实体、对象、事件、状态或活动的记录和表示,是未经加工和修饰的原料,可以被存储、传递和处理。
图1-1 数据、信息、知识的关系
信息(Information):是为了实现特定的目的,对数据进行过滤、融合、标准化、归类等一系列处理后得到的有价值的数据流。
知识(Knowledge):是通过对信息进行归纳、演绎、提炼和总结,得到的更具价值的观点、规律或者方法论。
举例:如果北京某气象站的仪器10月1日9:00测量的气温为25℃,这些被记录在信息系统中的数字是一组原始数据;北京广播电视台以此发布“10月1日9:00,北京城区的气温为25℃”,这是一条信息;北京市气象局进一步比较、研究后发现,“今年10月北京白天的平均气温比历史同期低3℃左右,并预测未来有进一步下降的趋势”,这是一条知识。
我们可以从技术和商业的角度给出数据挖掘的定义。
从技术的角度定义,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的,但又是潜在的、有用的、目标明确的、针对性强的信息和知识的过程,提取的知识可以表示为概念、规则、规律、模式等形式。需要注意的是,数据挖掘面对的数据通常是真实的、大量的、含噪声的、不完全的,而目标是挖掘用户感兴趣的、有应用价值的领域知识。
从商业的角度定义,数据挖掘是一种新的商业信息处理技术,能够对商业数据库中的大量业务数据进行抽取、转换、分析和处理,提取出辅助商业决策的关键性知识,例如,市场规律、客户行为模式等。
从原则上讲,数据挖掘可以在任何来源及类型的数据上进行,包括来自各种数据库系统中的记录、文本文件、Web文档、日志、图像、视频、语音等。其中,高级数据库系统包括面向对象和对象—关系数据库、面向特殊应用的数据库(如空间数据库、时间序列数据库、文本数据库和多媒体数据库)。这些数据从组织形式上可以分为结构化数据(各类数据库中的数据,也包括以文本文件保存的遵循数据格式与规范的数据)、非结构化数据(文本、图像、视频、语音等)和半结构化数据(Web页面、日志等)。图1-2给出数据挖掘任务中的代表性数据,其中,数据(a)和(b)是结构化数据,数据(c)是半结构化数据,数据(d)是非结构化数据。
图1-2 数据挖掘任务中的代表性数据