1.2.2 KDD的一般机理和理论基础
1. 一般机理
推理、联想和学习是人类智能活动的三大主要功能,推理和联想的功能必须通过学习才能不断完善、充实,因而学习是一切智能活动的基础。使计算机系统具有某些程度的学习能力,能够模拟人类的学习活动,一直是人工智能领域所追求的目标。
储存在数据库中的结构化数据,是对现实世界某种程度上符号化和数据化的抽象,是对现实世界事物某一程度、某一侧面的映射,所使用的抽象方式和抽象层次主要取决于具体的应用模式。考虑到数据采集过程中可能引入误差,因而要求数据库至少能够在总体上反映现实世界,否则数据库就不能使用。数据库中的元组可以认为是一些低抽象程度的判断。
2. 主要研究方法
KDD 的主要实施对象是关系数据库。这是因为关系数据库具有归一化的组织结构、一体化的查询语言、方便的用户接口和能进行集合处理的优点,而且在各行业中应用最广泛。另外,关系数据库中各关系之间、各属性之间都是平等的,有利于知识发现过程中的并行计算。由于 KDD 的研究对象比较特殊,一般都是大型数据库,其中的数据容量往往是一般人工智能系统所不能比拟的,因此,KDD 的研究方法及技术策略就有其鲜明的特色。
首先,在研究上遵循认识的基本过程,即实践—认识—再实践—再认识。KDD 一改过去以演绎逻辑为主的策略,在本质上以归纳逻辑为主,采用从个别到一般,从感性到理性的知识抽象过程。当然,在知识发现过程中,也不能完全抛弃演绎,而是归纳和演绎相结合。
其次,KDD 的技术策略也有其特点。把握事物的规则性是人脑思维的重要功能,精确数学就是这种功能的产物和表现。这种定量的分析和计算在以往的知识发现过程中应用得较多,特别在统计学领域。但是,在定量基础上的定性归纳有时也能够深刻地反映问题的本质,并且用较少的代价就能传递足够的信息,对复杂事物做出高效率的判断和推理。所以在知识发现过程中,把定性分析和定量分析相结合也是非常重要的,既采用定量的计算来分析和处理数据,也充分重视定性思维和描述的作用。具体来说,知识发现系统应该用语言值来把握过于复杂无法数值化的量的规则性,通过比较来反映事物在量的规则性上的差异。
3. 抽取知识的类型和表示
(1)依赖关系。若其中一项的数据可以预测另一项的数据即A→B,则称这两项存在依赖关系。当确定依赖关系不存在时,可以附加不确定度量:A→(0.95)B。这一类知识可用于数据库知识的归一化、查询优化,还可用于最小化决策树、搜索数据特例等,甚至可以被系统中其他的发现算法使用。
(2)分类知识。数据子类的标识知识。子类可由某一现有属性确定,也可由附加的领域知识来定义,KDD 系统基于分类知识的发现任务促进了交互式新型聚类算法的发展,即处理器计算能力和用户知识及可视化工具的有机集成。
(3)描述性知识。关于类别特征的概括性描述。主要包括两类知识:特征描述知识和区分性知识。特征描述知识是指本类数据所共有的,区分性知识是指本类区别于其他类的特性。
(4)偏差性知识。关于类别差异的描述。包括:标准类中的特例,各类边缘外的孤立点,时序关系上单属性值和集合取值的不同,实际观测值和系统预测值间的显著差别等。