高维聚类知识发现关键技术研究及应用
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.2 数据库知识发现——KDD

1.2.1 KDD的产生与发展

自20世纪60年代末期以来,随着计算机应用的普及和数据处理在计算机应用中所占比重的上升,数据库技术得到了迅速发展。数据库技术与计算机网络通信已经成为当前计算机应用中两个最重要的基础领域。计算机的一些重要应用,如管理信息系统、办公自动化技术、计算机辅助设计和专家系统等,都离不开这两个基本技术。

数据库技术是在传统文件技术的基础上发展起来的。数据库技术区别于传统文件技术的特点有:数据共享性、数据独立性、数据操作和控制手段的一致性等。在当前流行的数据库管理系统中,采用的数据模型主要有层次模型、网状模型和关系模型三种。20 世纪 70 年代中期,关系数据模型渐渐成为占主导地位的数据模型。由于关系数据库的模型结构简单,逻辑物理界面清晰,具有较强的集合处理功能,使得数据库应用系统开发的效率大大提高。

目前,数据库的应用己经触及到人类生活的各个方面,银行、交通、法律、商业、工业、农业、教育、科技、军事和医疗卫生等各行各业都在应用着数据库。据统计,1989 年全世界数据库总量为 500 万个,而且以每 20 个月翻一番的速度增长,但是对数据库中数据的开发应用还主要是检索查询,效率很低,很多数据往往还没来得及分析就己经过时了。20 世纪 90 年代,地球探测卫星每天产生的数据,超过以前所有航测数据的总和,即使一个人以最快的速度一刻不停地工作,也要花费几年时间才能浏览完卫星一天内产生的图片;生物学领域研究的数以百万计的遗传基因,世界各国定期进行的人口普查,国土资源地理信息,铁路动态调度控制和公安司法部门的案件处理等都涉及巨量的数据,相当数量的数据具有很强的时效性,数据的价值随着时间的推移而迅速降低。

数据收集与维护的最终目的是供人们使用。简单的数据查询或统计虽然可以满足某些低层次的需求,但人们更为需要的是从大量数据资源中挖掘出对各类决策有指导意义的一般知识。它们是对大量数据的高度浓缩和抽象,是对数据整体的全面而深刻的反映,这些经过智能分析和表示的数据才是有价值和竞争力的社会资源。

KDD(Knowledge Discovery in Databases)技术就是在这样一个时代背景下产生的。它的宗旨是在数据库中分析处理大量的数据,发现有用的知识,为用户提供所需问题的答案。数据库知识发现比较公认的定义是:从数据集中识别出可信的、有效的、新颖的、潜在有用的以及最终可理解模式的高级处理过程。“数据库知识发现”一词第一次出现是 1989 年 8 月在美国底特律召开的第 11 届国际人工智能联合会议的专题研讨会上。1991 年、1993 年和 1994 年又分别举行过数据库知识发现专题研讨会。由于参加会议的人数逐年增多,从 1995 年开始,每年都要举办一届数据库知识发现国际会议。