第二节 分类检索语言
一、分类检索语言概述
类是指具有共同属性的事物的集合。物以类聚是人们长期以来认识事物的一种方法。文献分类是依据文献所载知识信息的学科属性,对文献进行类别的划分,并进一步根据文献信息内容之间的内在联系,组织成科学的分类体系。学科分类是文献分类的基础。
分类检索语言也称分类法,是将许多类目根据一定的原则组织起来,通过标记符号(分类号)来代表各级类目和固定其先后次序的分类体系。它是直接体现知识分类的概念标识系统,是对概括文献信息内容及某些外表特征的概念运用逻辑方法进行系统排列而构成的。分类法按学科、专业集中文献信息,并从知识分类角度揭示各类文献信息在内容上的区别和联系,提供从知识分类检索文献信息的途径。
(一)分类检索语言的类型
分类检索语言主要包括体系分类法和组配分类法两种类型。
1.体系分类法
信息检索中常用的分类语言是体系分类法,也称等级列举式分类法。体系分类法以学科分类为基础,按知识门类的逻辑次序,由大到小,由一般到特殊,由总体到部分,层层进行概念划分。不同级别的类目层层隶属,形成一个严格、有序的线性等级体系。具有代表性的体系分类法有杜威十进分类法、美国国会图书馆分类法、中国图书馆分类法、中国人民大学图书馆图书分类法等。目前,国内使用的主要是体系分类法。
2.组配分类法
组配分类法又称分面分类法或分面组配分类法。这种分类法的含义是,绝大多数文献的主题是由单一主题组成的复合主题,都可以分解为相应的基本概念,同时,它们也可以通过相应基本概念的组合加以表达。因此,只要分类表内收入足够的基本概念,应用分面组配方式,就可以进行同一基本类内不同分面成分之间的组配,也可以进行不同基本类之间的组配等。
组配分类法的分类表是分面的概念要素表,其体系结构是隐含的。每个大类都首先列出基本类,然后列出分面公式,再列出其中焦点及类号,即每个大类都是由各个面及面内焦点组成的。组配分类法具有标引专指、标记表达强、适应性强等特点。具有代表性的组配分类法有印度著名图书馆学家阮冈纳赞创制的冒号分类法。
(二)分类检索语言的特点
分类检索语言是信息管理领域经典的检索语言之一,以1876年杜威十进分类法的问世为标志,已走过了一个多世纪的历程,形成了自成体系的一套信息组织和检索方法。分类检索语言的主要优点表现在以下方面:
(1)具有按学科或专业集中地、系统地揭示文献信息内容的功能,具有较高的查全率,能够较好地满足族性检索的要求。
(2)具有良好的等级结构,便于扩大和缩小检索范围。
(3)既能用于组织检索工具和检索系统,又能用于组织文献的分类排架。
(4)用分类号检索,可不受文种限制。
但传统的分类检索语言也存在着一定的不足,具体表现在以下方面:
(1)以分类号作为检索标识,不易被广大读者理解概念。若不熟悉分类法,很难把主题概念转换为分类号。
(2)修订不便,无法及时增加反映新知识主题的类目。同时,分类表也不可能永无止境地细分下去,如遇到主题十分狭窄的文献,则可能很难找到相应的类目及分类号。
(3)体系分类法的单维式直线序列结构,不利于处理现代科学技术交叉渗透出现的多维性主题的文献。
二、分类检索语言结构
分类检索语言从其结构来说,包含三种最基本的要素,即类目、标记符号、说明与注释。
(一)类目
类目是表达文献信息内容或主题范围的概念,是构成分类法的细胞。一部分类法由成千上万个类目组成。表示类目概念的名称称为类名。类名规定了类目的定义和内容范围。它可以由单词或词组构成,用来表达学科、专业、事物对象及其他方面。如反映学科及其分支概念的生物学、植物学、植物形态学等;反映事物及其种类、构成部分概念的各种物质、产品、民族、语言、机构、人物、事件等。
按照类目之间的关系建立起来的类目集合称为类目体系。类目体系是分类法的核心,它的建立涉及类目的划分、引用次序、类目的排列、类名的确定、类目之间相互关系的处理等。
1.类目的划分
类目划分是把一个类目分为若干个小类,从而揭示这个类目外延的逻辑方法。被分的类目称为母类或上位类,分出来的类目称为子类或下位类。如教育可分为高等教育、中等教育、初等教育等。通过类目划分可以明确母类的全部外延,建立若干子类,给设立类目打下基础。
类目的划分是按照一定的分类标准进行的,分类标准指用来作为划分依据的事物属性。类目划分的标准大体上可分为内容标准和形式标准两种。内容标准包含论述的对象、范围、所属学科、涉及的地区或国别、时代、民族、人物事物性质、工艺流程、组织结构、思想倾向、使用的工具、材料、目的及效果、物质运动的形态、社会实践的职能分工等;形式标准包括编写体裁、语言文字、出版形式、装帧、文献类型等。在现代分类法中,类目划分一般以内容标准为主要标准,以形式标准作为辅助标准。
类目划分的过程通常是由大到小,由属到种,由整体到部分,由总论到各论,由全面到各方面,这样,通过层层划分,就可以建立起一个逐层展开的分类体系。例如,《中图法》的化学类的划分即是由大到小来划分的,化学分为无机化学、有机化学、高分子化学(高聚物)、物理化学(理论化学)、化学物理学、分析化学、应用化学等。而禾谷类作物下分为稻、麦、玉米(玉蜀黍)、高粱、粟(谷子、稷)、黍(糜子)、荞麦等,是根据由属到种的过程来划分的。
2.引用次序
引用次序在体系分类法中表现为分类标准的使用次序,当某一类事物连续划分需要采用几种分类标准时,分类标准的使用次序是否合理,对分类体系有直接的影响,决定着类目体系的展开方式。在组配分类法中引用次序则表现为各个分面组配的先后次序。分类语言中的引用次序决定了按照哪种属性集中文献,也决定了检索途径。
在体系分类法中,至今没有一部分类法提出或确立过一种统一的一般引用次序,各大类或各部类引用次序各不相同。例如,在《中国图书馆分类法》中,法律类就出现了两种引用次序,法律—部门—国家和法律—国家—部门。在分面分类法中,有两种有代表性的通用引用次序。即阮冈纳赞的五个基本范畴和英国分类法研究小组维克利等学者提出的标准引用次序。阮冈纳赞在其编制的《冒号分类法》的基础上,提出以具体性递减为原则的引用次序:本体(P)—物质(M)—动力(E)—空间(S)—时间(T)。英国分类法小组在编制多种专业分面分类法的基础上,提出以目的性或效用性为原则的引用次序:物质、产品、机体(P)—部分、器官、结构(O)—成分(C)—性质和测定(Q)—行动对象、原料(R)—行动、操作、过程、行为(E)—施动者和工具(A)—般性质、过程、操作(G)—空间和时间(S、T)。
合理的引用次序应该满足逻辑性原则、符合检索需要的原则和表达性原则。我国著名的检索语言专家张琪玉也曾指出,合理的分类标准使用次序是指:第一,分类体系的层次结构基本符合文献主题概念的层次结构,或者说,类目的层层划分、展开是符合逻辑的;第二,对文献的集中与分散的处理符合读者的检索要求。
3.类目的排列
分类法是由许许多多的类目按照一定的顺序排列起来的体系,类目的排列直接影响到分类法的质量。类目的排列应体现出系统性、整体性、等级性、逻辑性、连续性和一致性。尤其是在体系分类法中,类目的排列应坚持相关排列准则,其中,同位类的排列次序反映了客观事物本身发展和联系的排列次序,具有重要的意义。
所谓同位类是指由一个上位类直接区分出来的各个下位类,它们之间不相从属,相互排斥,处于同等地位。同位类的排列是否得当,是否符合规律,会影响到整部分类法的质量。在目前的国内外分类法中,同位类的排列主要采用的序列方法有按照逻辑顺序排列、按照客观事物发展的顺序排列、按照时间顺序排列、按照空间顺序排列等,此外,还可以依据依存次序、惯用次序、实用次序和字顺次序等其他顺序进行同位类的排列。
4.类名的确定
类名是体系分类法的语词,起着表达类目含义的作用。类名的选择和确定应坚持科学性、确切性、简洁性。
科学性指采用比较通行的科学名词术语作为类名,一般不采用不通行的同义词、俗称、旧称、不能准确表达全称原义的简称,以及不通行的译名、近义词等作为类名。如有必要,可将同义词、俗称、旧称等用括号加注于类目名称之后。例如,《中图法》中的B81逻辑学(伦理学)、B82伦理学(道德学)等。
确切性指类名要能准确地、恰当地反映类目的实际内容范围,不能使用概念外延大于或小于类目实际范围的词或词组作类目名称。
简洁性指所用的类名要尽量概括、精练、简短,避免冗长拖沓,同时类名还要做到规范化。
5.类目之间相互关系的处理
分类法是依赖于类目之间的相互关系建立起来的。在体系分类法中,类目之间的基本关系主要有从属关系、并列关系、交替关系和相关关系。
(1)从属关系。从属关系又称隶属关系,指类目体系中母类与其子类的关系,体现为上位类和下位类的关系,这种关系构成了分类法类目的纵向排列。在分类体系中,上位类与下位类是相对的。
从属关系包括属种关系、整部关系(整体与部分关系)、方面关系(全面与某一方面关系)。属种关系是类目隶属关系的基本形式,是指同族事物的属与种、类称与特称之间的关系。如文学作品是小说的上位类,即属概念;小说是文学作品的下位类,是种概念。整部关系和方面关系的上位类与下位类是一种限定关系,整部关系是指两个不同族的事物,一个成为另一个的构成部分的关系,如生物系统与器官等;方面关系指该事物及其有关的各个内容方面的关系,如“马”和它的下位类生理、解剖就属于方面关系。
(2)并列关系。并列关系又称同位关系,在分类体系中体现为同位类的关系。例如:
F经济;
F0政治经济学;
F1世界各国经济概况、经济史和经济地理;
F2经济计划与管理;
F3农业经济;
F4工业经济;
F5交通运输经济;
F6邮电经济;
F7贸易经济;
F8财政、金融。
其中,F0, F1, F2, F3 ……为并列关系。
(3)交替关系。交替关系指使用类目和交替类目之间的关系。有的学科或事物分属两个门类,编制分类法时确定归入一个门类,同时在另一个门类设交替,以适应学科的交叉关系,集中同一主题的相关文献。在交替关系的处理中,交替类目不用来类分文献,只起到指向使用类目的作用。例如:
B035国家理论;
宜入D03(政治理论下的国家理论类)。
(4)相关关系。有些类目之间存在着密切的关系,而这些类目又不属于一个类系,这种类目之间的关系称为相关关系,如:中国共产党和中国近代史。有着相关关系的类目,称为相关类目。相关类目也称参见类目或参照类目。例如:
0212数理统计;
参见C8(统计学)。
(二)标记符号
分类语言的标记符号即分类号,是用于标记某一分类体系各类目的序数系统。现代图书分类法都使用分类号作标记,一方面是作为类目的代号,固定类目的先后次序,便于标引和组织文献;另一方面可以显示类目之间的相互关系,便于作相符性比较。理想的分类标记应符合简短性、容纳性、灵活性、表达性、助记性和适应性等要求。
分类号有两种:一种是单纯式号码,主要使用的是纯数字标记,《中国人民大学图书馆图书分类法》就采用了纯数字的标记符号作为分类号,例如,11.表示11大类历史;另一种是混合式号码,通常是字母和数字结合使用,《中国图书馆分类法》使用的是混合式号码来标记分类号,如G35表示三级类目情报学。
标记制度是指由标记符号构成分类标记的基本方法,可分为顺序制、层累制、混合制、分面标记制4种。
1.顺序制
顺序制指在分类体系确定后,对全部类目不分等级给予顺序号码的编号方法。顺序制具有号码简短明了、便于排检、容纳性强的优点,但它不表达类目之间的关系,所以表达性和助记性差。《美国国会图书馆分类法》就采用了这种标记制度。
2.层累制
层累制是一种分类号位数与类目等级相对应的标记制度。一般是用一位数字或一个字母表示一个大类,再加一位数字或一个字母表示下一级类目,如此层层累加。层累制具有较强的表达性和助记性,便于扩检和缩检,有利于文献排架和目录组织。但号码的简短性比顺序制差,分类愈细,类号愈长。在实际使用过程中,绝对遵守层累制原则的分类标记系统是很少的。我国的《中国图书馆分类法》基本上采用了层累制。
3.混合制
混合制是一种将顺序制和层累制结合起来的标记制度,一部分用顺序制,部分用层累制。例如我国的《中国科学院图书馆图书分类法》。
4.分面标记制
分面标记制是一种显示类目组配结构的标记制度。根据科学发展的规律,阮冈纳赞创立了分面标记法,在他所设计的基本分面公式中,不同的主题方面都有相应的标识符和固定的位置。它们共同组配成一个完整的主题类号。常见的分面标记采用分段组合方式,如果各个节段规定相应的辅助标记,则各个节段可以轮排,以提供更多的检索途径,便于在每段扩充。分面标记制具有较强的表达性和灵活性,但其号码成分复杂,冗长难记,标记的排序能力差。
此外,为了更好地增强分类法标记符号的容纳性、表达性和简明性,分类法在编制过程中,还采用了一些特殊的标记方法:
(1)八分法
指用1~8来标记同位类,当同位类超过8个时,不用9,而是用91, 92, 93…98来标记,即91表示第9个同位类,92表示第10个同位类,93表示第11个同位类……98表示第16个同位类。以此类推,同位数超过16个时,不用99,而是用991, 992, 993…998来标记。八分法是解决同位类超过10个限度时的一种标记方法。
(2)双位法
体系分类法中,如果同位类超过18个,在类目展开时,可以直接采用两位数表示一次划分,这种方法称为双位法,其主要目的是用来解决号码的扩充问题。
(3)借号法
这是一种灵活借用上位类或下位类号码的配号方法。当同位类个数超过9个,而且只是多出1个或2个时,可以借用其中某个同位类1个或2个多余的下位类号,这些类号常是9或8。
(4)组配法
组配法是将两个表示简单概念的类号用组配符号组合成一个复合类号,用来表达分类表中没有列出的复杂概念。
(三)说明与注释
说明与注释是对分类表结构及使用方法的揭示,用它来进一步阐述分类法的编制原理、特点和使用方法,明确类目之间的关系,确定类目的性质和范围,确定类分图书时的方法等。分类法的说明与注释主要包括编制说明、大类说明和类目注释3种形式。
编制说明主要介绍分类法的编制原则、编制过程、类目设置及相关技术处理方法。大类说明主要介绍基本大类的结构特点和标引规则。分类法编制说明和大类说明对利用分类法具有很大的帮助。
类目注释是对类目的性质或类名的补充说明文字。它是分类法增设新学科、新事物、新理论、新技术等新主题概念的一种重要方法,是分类法增强主题法因素的一种重要手段,也是衔接分类法新旧版之间变化的一种有效方法。类目注释不仅是一部分类法的重要组成部分,也是分类标引人员判断类目含义、明确类目之间关系的重要依据,正确理解和使用类目注释有助于提高标引质量;类目注释的主要类型包括定义注释、同义词注释、列类依据注释、内容范围注释、类目关系注释、标引方法注释、增词注释、修订注释等。例如:
D631.42户籍管理、流动人口管理入此。
参见C921.3(3版为交替类目,宜入C921.3)
类目、标记符号、说明与注释是分类语言的最基本构成,作为一部具体的完整的分类法主要包括编制说明、类目表和类目索引。主要有这样一些内容:
(1)编制说明。
(2)类目表:这是分类表的主体部分。主要包括:大纲,即基本大类的一览表;简表,即基本类目表;详表,即主表,是真正分类的依据,它详细列出类目、类号和注释;复分表,包含一组标准目次表,用以对主表中列举的类目进行细分。
(3)类目索引:根据主题法的原理,将类目及注释改成标题形式,按字顺排列,并注明相应的分类号,以方便查找类号。
三、主要体系分类法介绍
目前,国内常见的体系分类法有《中国人民大学图书馆图书分类法》,简称《人大法》,初版于1953年;《中国图书馆分类法》,简称《中图法》,初版于1975年,全名为《中国图书馆图书分类法》,目前已更名为《中国图书馆分类法》;《中国科学院图书馆图书分类法》,简称《科图法》,初版于1975年;《中国档案分类法》,初版于1987年,1997年推出第2版。
国外常见的体系分类法有《杜威十进分类法》(Dewey Decimal Classification),简称DC或DDC,初版于1876年;《美国国会图书馆分类法》(Library of Congress Classification),简称LC,初版于1961年;《国际十进分类法》(Universal Decimal Classification),简称UDC,初版于1905年,1960年出版中文版,所列类目超过21万个。
本书主要介绍《中国图书馆分类法》和《杜威十进分类法》。
(一)《中国图书馆分类法》
我国目前广泛使用的分类法是《中国图书馆分类法》。它是由国家图书馆等单位组织全国力量,以学科分类为基础,并结合图书的特性所编制的分类法。它将学科分五大部类,基本序列是:马克思主义列宁主义毛泽东思想、哲学、社会科学、自然科学、综合性图书,就这样由5大部类、22个大类、6个总论复分表、30多个专类复分表、4万余条类目组成了一个完善的分类体系(如表6-1所示)。
表6-1 中图法分类体系表
标记制度采用拉丁字母与阿拉伯数字相结合的混合号码制,用一个字母代表一个大类,以字母的顺序反映大类的序列,在字母后用数字表示大类下类目的划分,数字的设置尽可能代表类的级位,并基本上遵从层累制的原则。
(二)《杜威十进分类法》
《杜威十进分类法》是由美国的威尔·杜威编制,是一部在国际上出现最早、流行最广、影响最大的图书分类法。1876年出版,至1996年出版第21版,四卷本。卷一为编制说明和通用复分表,卷二、卷三为类表,卷四为索引和使用手册。它依据培根的知识分类思想,将图书分为十大类:
000 总论
100 哲学
200 宗教
300 社会科学
400 语言学
500 自然科学
600 技术科学
700 美术
800 文学
900 史地
17世纪英国哲学家培根依据人的心理活动提出了知识分类思想,认为人类的心理活动从低级到高级有三种功能,即记忆、想象和理性,依次产生出历史、文艺、哲学三类知识。有人将《杜威十进分类法》的分类称为倒转培根法。《杜威十进分类法》采用纯阿拉伯数字作为基本标记符号,基本上按照层累制展开。
《杜威十进分类法》的修订和管理工作一直非常出色,这也是它经久不衰的重要条件。而且,《杜威十进分类法》早已推出了电子版(WebDewey),2003年出版了最新的第22版。
四、主要分面组配分类法介绍
最早提出分面组配思想的是比利时的奥特莱。他在1896年撰写的《论数字分类法的结构》一文中提出了按观点分类和把简单概念组合成复杂概念的组配原则,并在1905年出版的《国际十进分类法》中大量采用了冒号“:”、圆点“.”、短横“—”、圆括号“()”、六角括号“[]”等分面组配符号,用以组合简单概念。
系统的分面组配分类理论是由印度图书馆学家阮冈纳赞提出的。他在20世纪30年代编制出版了第一部最具影响的分面组配分类法,50年代初期提出了五个基本范畴和分面标记的思想和方法,随后出版了著名的专著《图书分类导论》,系统地总结了分面分析和分面标记的原则与方法。分面组配分类法突破了传统的等级列举式分类法的理论束缚,其“分面分析”和“分面组配”思想,对世界各国情报检索语言的理论与实践发展产生了重大的影响。各国图书分类法的编制和修订都不同程度地采用了这些原则。1960年,维克里出版了《分面分类法——专业分类表编制和使用指南》,总结了伦敦分类法研究小组编制分面分类法的经验,进一步推进了分面组配分类法的发展。
《冒号分类法》是印度著名图书馆学家阮冈纳赞编制的一部分面分类法,初版于1933年,提出了分面标记符号,只用“:”作为分段符号。1939年出版了第2版,采用“八分标记法”。1950年出版了第3版,广泛使用了“焦点”“面”“相”等概念,并依然只采用“:”作为分段符号。1952年出版了第4版,提出了五个基本范畴的概念,采用5种不同的分段符号,在很大程度上变革了原来冒号分类法的面貌。1957年出版了第5版,将分类表分为2卷。1960年,又将第5版中的第1卷修订出版,作为第6版。1972年,阮冈纳赞去世。1987年出版了《冒号分类法》的第7版。
阮冈纳赞认为,图书分类的主要作用,在于给予每一个特定的主题以一个特定的类号,从而使每个不同的主题都能区别开来,并在类号中把主题的组成要素反映出来。而现行各分类法所采用的标记制度,无论是小数制、序数制或其他方式(如字母),都把类目排成一条直线的方向,从而具有很大的局限性。新类目不能随时插入到它应有的位置;要把已有的类目加以进一步细分时,也往往不能给以最恰当的号码。为了解决这一问题,阮冈纳赞提出了以分析兼综合原则、分面分析和分面标记为核心的分面分类理论。
《冒号分类法》提出五个基本范畴的理论,它们依次为本体(Personality)、物质(Material)、动力(Energy)、空间(Space)、时间(Time)。通过这五个基本范畴来分析、归纳和组织文献。每个基本范畴都采用特性的指示符表示。在第7版中,又将物质面进一步分解成3个方面:物质(M)、物质性质(MP)、物质方法(MM)。
《冒号分类法》在标记制度方面也很有特色,它创立了分面标记制度,使每一特定的主题有一个特定的类号,并在号码中把主题的组成要素反映出来,针对列举式的类表和单线式的标记还提出了一些其他的标记方法,广泛采用了八分法、百分法(双位法)等。阮冈纳赞还成功地创造了分面组配式分类法,把它运用于不同学科之间的相互联系。《冒号分类法》具有标记表达性强、类表简练、容纳性强、适应性好、易于揭示复杂主题等优点,对今天的知识组织产生了一定的影响。其不足之处有:类目体系不够直观,标记符号种类繁杂、规则繁多,使用起来比较复杂等。因此,《冒号分类法》虽然在理论上对分类语言的发展做出了重大贡献,但在实践中并没有得到广泛使用。