第1章 知识发现与KDD
1.1 知识与知识发现
1.1.1 知识
人类从工业社会向知识社会演进的同时,政治经济中心从“生产”转向“发现、发明和创新”。知识正在成为创新的核心,知识创新成为知识经济发展最主要的动力源泉。知识经济对物质文明发展能够发挥巨大的推动作用,可以依靠无形资产的投入来实现可持续发展,推动全球经济一体化的进程。
在信息科学中,信息是根据表示数据所用的约定,赋予数据的意义。数据是事物、概念或指令的一种形式化表现形式,以适用于人工或自然的方式进行通信、解释或处理。而信息是数据所表达的客观事实,是数据内含的社会意义。数据是信息的载体,信息是数据的内容。数据与具体的介质和编码方法有关。20 世纪40 年代,香农(Shannon)对信息的数学本质进行了研究,提出了著名的 Shannon 信息论。他用熵的概念来研究信息的容量,采用比特作为度量信息的单位。其信息熵的研究成果至今仍在信息科学的研究中发挥着重要作用。
信息经过加工和改造形成知识。知识是人类在实践的基础上产生又经过实践检验的对客观实际的可靠反映,是人脑创新的成果,是人类智慧的结晶。智慧是人类文明的源泉,是推动历史发展的永恒动力,是生产力诸多要素的核心。
关于知识的定义,我国传统文化中早已有相关记录。《论语》中“知”出现过 116 次;王充《论衡》中讲到“知为力”,是人类第一次明确指出“知识就是力量”。
而在国外,据经济学家汪丁丁考证,“知识”一词来自于希腊语“gnoo(Knowledge)”。自从古希腊开始,西方哲学史上就开始了以知识定义的认识论争辩。显然,知识是一个极其常用但又难以准确定义的词汇。其中若干典型的知识定义如下:
定义1
知识包括一些事实、信念、观点、观念、判断、期望、方法论与实用知识等。此观点强调知识在心智模式内的组成要素。
定义2
知识是一种被确认的信念,通过知识持有者和接收者的信念模式和约束来创造、组织和传递,在传递知识的同时也传递一整套文化系统和相关的背景系统。知识是从不相关或相关的信息中变化、重构、创造而得的,比信息或数据更广、更深、更丰富。此观点强调知识与背景,以及知识与信息的关系。
定义3
知识是人类对数据及信息的一种逻辑推理(reasoning),它可以提升人类的工作、决策、问题解决及学习的绩效。此观点强调知识的形成过程及指导决策与行为的用途。
定义4
知识是相关的、可行动化的信息,它至少部分基于经验;知识是信息的一个子集,是主观的,和有意识的行为有关,拥用经验中的隐性成分。该定义也主要是从信息与知识的关系角度来分析的。
定义5
达文波特和普鲁萨克(Davenport&Prusak)整合了知识的形态、组成元素、主要作用和存储的主题等元素,从以下几个方面描述了知识的定义。
(1)知识的形态:知识是一个流动、动态的混合体,随着刺激和学习随时改变更新。
(2)组成元素:组成元素包括经验、价值观、情景信息和专业洞察力。
(3)主要功能:它提供一个参考结构来评估和整合新刺激所产生的信息与经验,形成新的结构(学习)并可以指导决策和行为。
(4)存储主体:它由知者(knower)的心智产生并被利用。在组织内不仅存在于文件与知识库中,也存在于例行的工作、流程、实践与文化中。
以上关于知识的定义中,多是从不同角度对知识的描述性界定,无法获得一致的理解和认同。关于知识的概念,韦伯斯特(Webster)词典和经济合作与发展组织(OECD)给出的两个定义比较权威,受到广泛引用。
韦伯斯特词典中定义知识是通过实践、研究、联系或调查获得的关于事物的事实和状态的认识,是对科学、艺术或技术的理解,是人类获得的关于真理和原理的认识的总和。知识是人类积累的关于自然和社会的认识和经验的总和。
OECD 为了有利于经济分析,将广义的知识按内容分为如下四种:知识是什么的知识,又称为事实知识(know-what),或者称为“知事”,它包括事实、描述和信息;知道为什么的知识,又称为原理知识(know-why),也称为“知因”;知道怎么做某事的知识,又称技能知识(know-how),也称“知窍”,它是一个关于如何行动的知识;知道什么人有什么知识的知识,又称人力知识(know-who),也称“知人”。一般来说,前两类知识即事实知识和原理知识,是可以表述出来的知识,属于显性知识;后两类知识,即技能知识和人力知识很难完全用文字明确表述,属于隐性知识。
知识具有下列特征:
(1)客观性。虽然知识是人脑对信息的加工成果,但这些成果是客观的,人类对自然、社会、思维规律的认识是客观的,这些规律的运行是不以人的意志为转移的。
(2)相对性。人类对自然、社会、思维规律的认识必须有一个过程。在一段时间内认为正确的东西,经过变革,可能发生变化。因此,知识作为对客观事物的认识和反映,也处于变化中,具有相对性。
(3)进化性。人类在认识客观世界和主观世界的过程中,不断在真理的长河中加入新的内容,知识不断更新,例如对物质结构的认识,对基因的认识等。
(4)依附性。知识有载体,载体分层次。离开载体的知识是无法存在的,随着载体的消失,知识也跟着消失。
(5)可重用性。在使用过程中知识可以反复使用。当然,要根据具体情况作具体分析,灵活应用知识。
(6)共享性。基础研究一般由政府进行投资,所得到的科学知识具有共享性;但最新的技术知识受到知识产权法保护,使用者只有支付一定的费用,才能获得这种知识的使用权。知识产权的保护对发展技术和知识经济是非常重要的。