第六章 检索语言与检索工具
第一节 检索语言概述
一、检索语言及其作用
(一)检索语言的概念
语言是一种人们用以交流沟通的重要工具,用于人与人之间的通信活动。人与计算机对话,需要有计算机语言;人与检索系统对话来实施检索,则需要有检索语言。检索语言是由一整套概念及其相应的符号表示的标志系统构成的。因其使用的场合不同,信息检索语言也有不同的叫法,在存储文献的过程中用来标引文献,则称为标引语言;用来索引文献则称为索引语言;在检索文献过程中则为检索语言。信息检索语言是根据检索的需要而编制的人工语言,又称文献语言、标引语言、索引语言、检索语言、标识系统等。也就是说,信息检索语言是检索信息时所使用的语言。文献存储时,文献的内容和外表特征按照一定的语言加以描述,检索文献时的提问也按照一定的语言加以表达。这种把文献存储与检索联系起来,把标引人员和检索人员双方思路沟通起来的约定语言,就是检索语言。检索过程中,检索语言起着重要的语言作用。沟通文献存储和检索两个过程,既是编制检索工具的依据,也是计算机信息存储及检索系统用以表达文献主题概念的人工语言。当前图书馆界普遍使用的检索语言主要有图书分类法、各专业领域的主题词表、叙词表等信息检索语言。
(二)检索语言的作用
检索语言在信息检索中起着极其重要的作用。它是沟通信息存储与信息检索两个过程的桥梁。在信息存储过程中,用它来描述信息的内容和外部特征,从而形成检索标识;在检索过程中,用它来描述检索提问,从而形成提问标识;当提问标识与检索标识完全匹配或部分匹配时,结果即为命中文献。
检索语言的主要作用如下:①标引文献信息内容及其外表特征,保证不同标引人员表征文献的一致性;②对内容相同及相关的文献信息加以集中或显示其相关性;③使文献信息的存储集中化、系统化、组织化,便于检索者按照一定的排列次序进行有序化检索;④便于将标引用语和检索用语进行相符性比较,保证不同检索人员表述相同文献内容的一致性,以及检索人员与标引人员对相同文献内容表述的一致性;⑤保证检索者按不同需要检索文献时,都能获得最高查全率和查准率。
随着计算机技术的发展和人们认识的深入,检索语言的概念也发生了变化。目前,检索语言有广义和狭义之分。广义的检索语言泛指信息检索过程中涉及的人工语言和自然语言。人工语言是根据一定的规则人为编制而成的检索语言,它有着严格的使用规则,可用于表述文献主要内容,建立信息检索系统。自然语言是人类交流时使用的语言,不受任何限制,未经加工和规范。将自然语言用于检索,更符合用户日常表达的习惯,也显现出信息检索系统的易用性和亲和力。狭义的检索语言仅指根据信息检索的需要,按照一定的规则对自然语言进行规范,并专门用于信息标引和用户检索的人工语言。
二、检索语言的基础
检索语言的基础是概念逻辑和知识分类。
(一)概念逻辑
检索语言不论是语词的还是符号的,都是表达一系列概括信息内容的概念及其相互关系的概念标识系统。因此,它们都是建立在概念逻辑的基础上。
概念逻辑,是一种科学思维方法,通过明确各种概念及其相互关系而揭示事物的本质属性及各种事物之间的联系与区别。检索语言在建立词汇、显示概念关系以及在文献标引和检索中,都离不开概念逻辑。
概念是事物本质属性的概括,任何概念都有其内涵与外延。某一概念的内涵,即指其所反映事物的本质属性;外延则是指其反映事物的范围。它们之间存在着反变关系,即概念的内涵包含的属性增加,概念的外延便缩小;反之,概念的内涵减少,其外延就扩大。概念之间的关系,按其外延是否有相同部分,可归结为相容关系与不相容关系。在相容关系中可以分为同一关系、隶属关系、交叉关系、整体与部分关系、全面与某一方面关系、不互相排斥的并列关系;在不相容关系中包括互相排斥的并列关系、矛盾关系、对立关系。
检索语言在表达各种概念及其相互关系时,普遍地应用了概念逻辑的原理,有效地利用了概念的划分与概括和概念的分析与综合这两种逻辑方法来建立自己的结构体系。
(1)概念的划分与概括(分类)
即利用概念内涵由反映事物本质属性的概念因素构成,概念因素的增加或减少可以形成新的概念,概念内涵与外延成反变关系等性质,对概念进行划分(缩小)或概括(扩大),形成更为专指或更为泛指的新概念,用以区别客观世界千差万别的事物;并利用划分或概括过程中所产生的概念隶属关系和并列关系,建立多种形式的检索语言结构体系,即概念等级体系,用以显示客观世界千差万别事物之间的内在联系。这种结构具有很好的系统性。例如,体系分类法就是这种逻辑方法的典型。
(2)概念的分析与综合(组配)
即利用在概念的交叉关系中两个概念外延的相同部分可以形成一个新概念,内涵等于原来两个概念内涵之和,并且它与原来的两个概念具有隶属关系的性质,进一步发展为将一个内涵较深的概念分解为两个或两个以上内涵较浅的概念,以及将两个或两个以上内涵较浅的概念合成为一个内涵较深的概念的一种概念逻辑方法,用以建立另一些形式的检索语言结构体系,即概念组配体系。这种结构体系可以提供从多种途径来进行信息检索的功能,而且可以任意选择检索标识的专指度,根据实际需要扩大、缩小或改变检索的范围。例如,叙词语言与组配分类法便是应用概念分析与综合的典型。
(二)知识分类
知识分类包括事物分类和学科分类。它是对千差万别的事物作系统研究的重要方法,是对各种事物之间的区别和联系从本质上、原理上进行揭示的重要手段,对信息的系统化具有重要的价值。
为了使检索语言能够适合科学研究的需要,必须把各种概念之间的关系建立在知识分类的基础上。如果说概念逻辑是检索语言的基础,那么知识分类便是概念逻辑的基础。检索语言中的体系分类法、组配分类法、叙词法等,都在不同程度上反映了知识分类。知识分类体系具有多维性并处在不断变化之中,检索语言反映当代知识分类的程度是其质量的重要标志之一。只有较充分反映知识分类的检索语言,才能保证检索语言在信息检索工作中得到有效运用,并达到较好的检索效果。
三、检索语言的功能
广义的信息检索包含信息的存储与检索两方面。在这两个相对应的过程中,信息存储人员和信息检索人员需要遵循一种能共同理解的语言,以保证信息存之有规则,取之有途径。具有这种功能的语言就是检索语言,它在信息检索过程中发挥着重要的作用。
(一)标引信息内容特征及某些外表特征,保证不同标引人员表达信息的一致性
检索语言是标引人员对信息内容特征以及部分外表特征进行描述的重要依据,信息标引人员在分析信息的基础上,用检索语言将文献的内容特征和外表特征表述出来,形成信息标识,比如分类号、主题词等,然后将标引记录存放在系统中,以供用户检索使用。信息标引是一个群体行为,只有共同依据检索语言,才能保证标引信息的一致性。
(二)对内容相同及相关的文献信息加以集中或揭示其相关性
检索语言采用等级结构、参照系统、轮排聚类法、范畴聚类法等显示概念之间关系的方法,来实现对内容相同及相关的信息加以集中或揭示其相关性的功能。等级结构是显示概念之间关系的一种最重要的方法,它将各种概念按相关性排列成一个具有隶属关系、并列关系的秩序井然的概念等级体系,包括体系分类表、分面组类表、词族索引等;参照系统是主题法系统各种语言显示概念之间关系的主要方法,其功能是将具有相关性但因为按照字顺排列而被分散在各处的概念联系起来,参照系统可以显示事物概念之间的全部等同关系、一部分等级关系(主要属种关系)和全部相关关系;轮排聚类法是将表达复杂概念或多因素主题的标识,按它们所表达出来的每个有检索意义的概念因素或主题因素进行轮排,当某一概念因素或主题因素轮排到检索入口位置时,就能使具有同一概念因素或主题因素的概念或主题的标识排到一起,从而起到聚类作用,显露出概念之间的相关性;范畴聚类法可以表明同一范畴的检索词都属于某一学科或专业范围。
(三)使信息的存储集中化、系统化、组织化,便于检索人员按照一定的排列次序进行有序化检索
检索语言将表达成千上万个信息主题概念的全部信息标识排列成一个有序的系统。排列信息标识的方法主要有三种:分类排列法(系统化方法),用于号码标识系统;字顺排列法(组织化方法),用于语词标识系统和代码标识系统;分类和字顺结合的排列法,即先按照分类排,再按字顺排,用于语词标识系统(如分类主题目录等),便于将标引用语和检索用语进行相符性比较。
一般来说,任何一种检索语言都有便于将标引用语和检索用语从整体上进行相符性比较(即判断标引用语是否与检索用语完全相符)的功能。大部分检索语言还可以将标引用语和检索用语从局部上进行相符性比较(即判断标引用语是否与检索用语部分相符)。
四、检索语言的分类
依据不同的标准,检索语言可以有不同的分类结果,具体如下:
(一)按描述文献的特征,可以分为描述文献外表特征的检索语言和描述文献内容特征的检索语言
(1)描述文献外表特征的检索语言。文献外表特征主要指文献的篇名(题目)、作者姓名、出版者、合同号、报告号、引文等,据此作为文献标识和检索依据而形成的检索语言称为描述文献外表特征的检索语言,如题名索引、著者索引、合同号索引、报告号索引、引文索引等,如图6-1所示。
图6-1 描述文献外表特征的检索语言
(2)描述文献内容特征的检索语言。描述文献内容特征的语言指主要依据文献内容特征而形成的检索语言,这是检索语言研究的核心部分,具体有分类语言、主题语言和代码语言,如图6-2所示。
图6-2 描述文献内容特征的检索语言
(二)按结构或原理,可分为分类语言、主题语言、代码语言和引文语言
分类语言用分类号来表达各种概念,将各种概念按学科性质进行分类和系统安排。分类语言包括等级体系分类语言(体系分类法)和分析综合分类语言(组配分类法)。它们统称为分类法系统。
主题语言是采用表达某一事物或概念的名词术语,用于标引、存储、检索的一种检索语言。它包括标题词语言(标题法)、单元词语言(单元词法)、叙词语言(叙词法)和关键词语言(关键词法)等。这些可统称为主题法系统。
代码语言一般只是就事物的某一方面特征,用某种代码系统来加以标引和排列。例如,化合物的分子式索引系统、环状化合物的环系索引系统、有机化合物的威斯韦塞尔线型标注法代码系统等。
引文语言是利用文献之间的相互引证关系而建立的一种自然语言,其标引词来自文献的主要著录项目。它具有选词方便、词汇丰富等特点。这种方法提供了从被引论文来检索引用它的全部论文的途径,从而顺着一种科学思想的发展过程线索找到有关信息。可以将引文语言看作是检索语言的一种特殊类型。
(三)按信息标识的组合使用方法,可分为先组式语言和后组式语言
先组式语言指表达信息主题概念的标识在编制词表时就已固定组配好,信息存储和检索人员在标引和查找信息时,依据词表选用组配好的主题标识进行操作,典型的先组式语言有体系分类法和标题词法。先组式语言标识明确,系统性较好,适用于传统的文献单元方式的目录索引。
后组式语言指在词表编制时不规定各主题词的组配关系,在标引和检索时再根据需要将各个主题词进行组配,来表达较为复杂的主题概念。比较典型的后组式语言有叙词语言和单元词语言。
后组式语言也可以当作先组式语言使用,称为先组散组式。比较典型的是组配分类法。
(四)按语言的规范程度,可分为人工语言和自然语言
人工语言有主题法(标题词、单元词、叙词、关键词)、分类法(体系分类法、组配分类法)和某些代码(语义代码、化学代码等)等种类;自然语言是直接取自文献信息本身,不经加工或规范的词语或句子。
此外,检索语言还有一些其他的分类方法。按包括的学科或专业范围,可分为综合性检索语言、专业性检索语言和多学科检索语言;按所用语言文字,可分为单语种检索和多语种检索。