1.1.2 知识发现和KDD_高维聚类知识发现关键技术研究及应用-QQ阅读中文玄幻网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

1.1.2 知识发现和KDD

知识发现是从数据集中抽取和精化新的模式的过程。知识发现的范围非常广泛，可以是经济、工业、农业、军事、社会、商业、科学的数据或卫星观测得到的数据，数据的形态有数字、符号、图形、图像、声音等。数据组织方式也各不相同，可以是结构、半结构或非结构的，知识发现的结果可以表示为各种形式，包括规则、法则、科学规律、方程或概念网等。

目前，关系型数据库应用广泛，并且具有统一的组织结构、一体化的查询语言、关系之间及属性之间具有平等性等优点，因此基于数据库的知识发现（Knowledge Dissovery in Database，KDD）是知识发现研究的主体和热点。1989 年，Fayyad 定义KDD 为“从数据集中识别出有效的、新颖的、潜在有用的，以及最终可以理解的模式的非平凡过程”。在此定义中，涉及几个需要进一步解释的概念：“数据集”、“模式”、“过程”、“有效性”、“新颖性”、“潜在有效性”和“最终可理解性”。数据集是一组事实 F（如关系数据库中的记录）。模式是一个用语言 L 来表示的一个表达式 E，它可用来描述数据集 F 的某个子集 FE，E作为一个模式要求它比对数据子集 FE 的枚举要简单（所用的描述信息量要少）。过程在 KDD 中通常指多阶段的处理，涉及数据准备、模式搜索、知识评价以及反复的修改求精。该过程要求是非平凡的，即要有一定程度的智能性、自动性（仅仅给出所有数据的总和不能算作是一个发现过程）。有效性是指发现的模式对于新的数据仍保持有一定的可信度。新颖性要求发现的模式应该是新的，不同于以往的知识或模式。潜在有用性是指发现的知识将来有实际效用，如用于决策支持系统里可提高经济效益。最终可理解性要求发现的模式能被用户理解，目前它主要体现在简洁性上。有效性、新颖性、潜在有用性和最终可理解性综合在一起称为兴趣性。

由于知识发现是一门受到来自不同领域的研究者关注的交叉性学科，因此导致了很多术语名称。除了 KDD 外，主要还有如下若干种称法：“数据挖掘”（Data Mining），“知识抽取”（Information Extraction），“信息发现”（Information Discovery），“智能数据分析”（Intelligent Data Analysis），“探索式数据分析”（Exploratory Data Analysis）和“信息收获”（Information Harvesting）等。其中最常用的是“知识发现”和“数据挖掘”。

数据挖掘与知识发现是存在交叉的两个概念。对这两个概念之间的关系，流行的有两种观点：一种观点认为，数据挖掘与知识发现是等同的概念，只不过在不同的领域叫法不同而已。在科研领域，知识发现使用较多，在工程应用领域则多称之为数据挖掘；另一种观点认为数据挖掘是知识发现的一个阶段，而且是核心阶段。该观点给出的定义是：知识发现，就是从大型数据库数据中提取人们感兴趣的知识。这些知识是隐含的、事先未知的、潜在有用的信息。业界更倾向于第二种观点。从知识产生的过程角度看待知识发现和数据挖掘，得出以下结论。

（1）知识发现是把低级别的数据转化为高级别数据的过程。所谓高级别数据，是具有特殊含义的数据。在工程应用中，根据不同的使用阶段和价值，又细分为信息和知识。信息可被理解为有特殊意义的数据；知识则表达为在特定应用领域，通过使用有价值的信息而在人脑中形成的、具有概括和总结特性的认识。知识可表示为概念（Concepts），规则（Rules），规律（Regulations），模式（Patterns）等形式。从知识发现的整个过程来看（图 1.1），数据挖掘是知识发现实现从数据到信息和知识转变的关键一步，是从大量数据中提取可信的、新颖的、有效的模式的高级处理过程。

图1.1 知识发现的过程

（2）如果把知识发现理解为一个过程或系统，数据挖掘是这一过程或系统的一个可自动执行的工具。挖掘算法是数据挖掘重要的组成部分。为解决特定的商业问题，一种或多种算法需要被选择、编译，在适于挖掘的数据环境下实施挖掘任务。从图 1.1看出，知识发现是需要人工参与的多环节过程。

数据挖掘（Data Mining）是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。提取的信息和知识必须具备可信、新颖、有效和易于理解这四个特点。