网络信息资源检索与科技论文写作
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.5 文献检索语言

1.5.1 文献的组织

文献的组织是指将各种文献集合成系统,以体现它们之间的联系。只有经过组织成为有序的文献,才能被找到,并被再次利用。

文献的组织有两种含义:一是按文献的某些特征直接将文献的载体加以组织排序;二是通过目录、索引等对文献进行间接的组织,这是深一层次的加工。文献经过著录形成反映其内容和形式特征的条目,按不同的特征将它们组织成相应的目录、索引等检索工具,它们具有揭示、报道文献的功能。

文献的组织大体上分为两种方式:一是按内容组织;二是按形式组织。按内容组织是组织文献的第一原则,该原则是指根据学科即知识体系来划分、组织文献。按形式组织,是指按文献的出版形式或按文献的特定功能、应用等来组织。

关于文献的组织原则在情报学中被称为检索语言。

1.5.2 检索语言的概念

检索语言,是指根据信息检索的需要创造出来的一种人工语言,是在文献检索领域中用来描述文献特征和表达信息检索提问的一种专用语言。检索语言是一种受控语言,它依据一定的规则对自然语言进行规范,将其编制成表,供信息标引以及检索时使用。

检索语言是用来描述信息源特征和进行检索的人工语言,可分为规范化语言和非规范化语言(自然语言)两类。

1.5.3 检索语言的种类

检索语言的基本成分是检索提问词。检索语言分为自然语言(natural language)和人工语言(artificial language)两类。自然语言采用的检索词是未加工整理和规范过的,即平常采用的关键词,这种语言称为关键词语言。人工语言采用经过规范化的词,规定一个词表示一种事物,例如标题词语言、叙词语言等。

检索语言的主要作用是对文献的外部特征和内容进行多层次描述,提供多种检索途径,以方便用户从不同角度检索查找。

检索语言有如下几种:

不同的检索语言构成不同的标识和索引系统,给用户提供不同的检索点和检索途径。

1.分类法语言

分类法语言是指以数字、字母或字母与数字结合作为基本字符,采用字符直接连接并以圆点(或其他符号)作为分隔符的书写法,以基本类目作为基本词汇,以类目的从属关系来表达复杂概念的一类检索语言。

以知识属性来描述和表达信息内容的信息处理方法称为分类法,著名的分类法有《国际十进分类法》、《美国国会图书馆图书分类法》、《国际专利分类表》、《中国图书馆分类法》等。

(1)分类法语言的特点

分类法语言体现了学科的系统性,便于从学科门类出发,进行族性检索,有利于查全一门学科中各种事物的所有文献。

分类法语言将概念逐级划分,具有等级结构,便于扩大和缩小检索范围。

分类法语言可用于图书资料分类排架、编制分类卡片,供图书馆读者查找图书资料使用。这是体系分类法语言具有的独特功能,任何其他检索语言都不具备这种功能。目前,我国的各家图书信息单位均采用《中国图书馆分类法》来排列图书。

分类法语言用分类号作为检索标识,不能直接表达概念,但不存在文种的限制。

分类法语言中的类目不能随时改变,因而分类法不能及时反映新的科学技术。如果遇到检索主题属于新兴学科的文献,就有可能找不到十分切题的类目和分类号。分类法语言中的类目,不可能无限地分下去。因此,用分类法的检索结果,专指度不高,查准率也不高。

分类法语言是按直线式序列设置类目的,对边缘学科课题,只能标引在一门学科的类目之下。例如,“激光焊接视网膜”课题,涉及物理、金属工艺和医学3门学科,检索时很可能漏检。

由于分类法语言中的大小类目已经在分类表中一一列举,不能变动,因此不可能按照检索课题的需要进行随机组配。

(2)分类法语言的组成

一部完整的分类法,由类目表、分类号码、说明与注释、类目索引4部分组成。

类目表:是分类法的主体,也是分类文献和检索文献的依据。类目表以科学分类为基础,运用概念划分的方法,把知识进行区分与类集,即把知识划分为若干个内涵更深、外延更窄的概念。因此,每划分一次,就会产生若干类目。逐级划分下去,就会产生许多不同等级的类目,在这些类目中,被划分的类目称为上位类目,由它划分出来的类目称为下位类目。分类的逐级展开、层层隶属的等级体系,这就是常说的分类法。

分类号码(或分类号):类目表中每个类目都有标记符号,称为分类号。分类号的主要作用就是简明、系统地表示每个类目在分类体系内的位置,以便组织分类目录或以类目来编排文摘正文。类号一般以纯数字或数符式为标识,其顺序取决于类号的大小,在配制上一般采用层累制,这样可以使等级概念更清楚。

说明和注释:整部分类法的绪论、各基本大类前面的类序,以及分类表内的注释均属分类法的说明和注释部分。

类目索引:类目索引按类名的字顺或音序排列起来。类目索引是分类者和检索者在分类和查找类目时的辅助依据。

(3)分类法举例

①《中国图书馆分类法》(原为《中国图书馆图书分类法》,简称为《中图法》)

《中图法》是我国目前通用的图书分类工具,读者掌握了有关知识,便能迅速、有效地查寻全国各图书馆的馆藏,如图1-1所示。

《中图法》的基本结构如下。

基本部类:它是对全部知识最基本的区分,是以后划分类目的出发点,共分为马克思主义、列宁主义、毛泽东思想,哲学,社会科学,自然科学,综合性图书五大部类。

基本大类:共分为22个基本大类,构成分类表的第一级类目。

简表:由基本大类与由其直接展开的一、二类目所形成的类目表。

详表:由简表展开的各种不同登记的类目所组成的类目表,是文献分类的真正依据。

《中图法》的标记符号采用汉语拼音字母与阿拉伯数字相结合的混合号码,即用一个字母表示一个大类,以字母的顺序反映大类的序列。字母后用数字表示大类以下类目的划分。数字的编号使用小数制。

②《国际十进制分类法》(Universal Decimal Classification,UDC)

UDC为世界各国分类科技文献所通用,也是当今国外图书情报界流行或影响较大的分类法。它包罗万象,并且具有普遍适应性的分类体系,包括所有知识领域,是当前世界分类法中列类最为详细的一个分类体系。目前,UDC的各种版本已有21种语言文本,详表有15~21万类目,其中科技部分最详细,类目总数达11万之多,比较适应现代科技文献高度专门化的特点。

图1-1 中国图书馆分类法

UDC把人类的全部知识划分为十大门类。在每一类下,按照从整体到部分、从一般到特殊的原则逐级细分为大纲、纲下划分为目、目下划分为分目。UDC采用阿拉伯数字为主表符号,同时也采用多种符号和数字组成复分号和辅助号。号码配制原则是,尽可能用号码的级位反映类目的隶属关系。一级类目为1位数字,二级类目为2位数字,三级类目为3位数字,其余类推,如图1-2所示。

③《美国国会图书馆分类法》(Library of Congress Classification,LCC)

该分类法是美国国会图书馆在馆长G.H.普特南主持下根据本馆藏书编制的一种综合性等级列举式分类法。1899年,参考C.A.卡特的《展开式分类法》拟订最早的大纲,然后按大类陆续编制并分册出版。1901年,发表分类大纲。1902年,出版“Z目录学”分册。至1985年,总共出版36个分册,总篇幅超过1万页。除了法律大类尚未全部编完外,其余各大类绝大部分在1901—1938年间出版。有的大类已修订出版三、四版。美国国会图书馆分类法是现在不少大学图书馆采用的图书分类法,具体分类如下:

图1-2 国际十进制分类法

A 一般内容  B 哲学、心理学及宗教  C 历史学及相关科学总论

D 古代史及世界各国史  E 美国历史  F 美洲历史

G 地理、人类学、休闲活动  H 社会科学  J 政治学

K 法律  L 教育  M 音乐

N 艺术  P 语言及文学  Q 科学

R 医学  S 农业  T 技术及工程

U 军事科学  V 航海科学  Z 图书馆学

2.主题法语言

主题法语言是指以自然语言的字符为字符,以名词术语为基本词汇,用一组名词术语作为检索标识的一类检索语言。以主题法语言来描述和表达信息内容的信息处理方法称为主题法。主题语言又可分为标题词语言、单元词语言、叙词语言。

(1)标题词语言

标题词语言是主题法语言中最早出现的一种检索语言。标题词是指从自然语言中选取并经过规范化处理,表示事物概念的词、词组或短语。它通过主标题词和副标题词固定组配来构成检索标识,只能选用“定型”标题词进行标引和检索,反映文献主题概念必然受到限制,不适应时代发展的需要,目前已较少使用。

(2)单元词语言

单元词(uniterm)是能够用以描述信息所论及主题的最小、最基本的词汇单位。它是从文献内容中抽出的,再经过规范化,能表达一个独立的概念。单元词语言通过若干单元词的组配来表达复杂的主题概念的方法,适于用简单的标识和检索手段(如穿孔卡片等)来标识信息。

(3)叙词语言

叙词是指以概念为基础、经过规范化和优选处理的、具有组配功能并能显示词间语义关系的动态性的词或词组。一般来讲,叙词具有概念性、描述性、组配性。经过规范化处理后,叙词还具有语义的关联性、动态性、直观性。叙词语言综合了多种信息检索语言的原理和方法,具有多种优越性,适用于计算机和手工检索系统,是目前应用较广的一种语言。CA、Ei等著名检索工具都采用了叙词法进行编排。

概念组配是叙词语言的基本原理。概念组配与字面组配在形式上有时相同,有时不同。而从性质上来看,两者区别是很大的:字面组配是词的分析与组合(拆词),概念组配是概念的分析与综合(拆义)。例如:

在第①例中,无论字面组配还是概念组配,其结果都是“模拟控制”。在第②例中,根据字面组配原理,“香蕉”和“苹果”组配是“香蕉苹果”。而概念组配的结果应是指“一种香蕉和苹果杂交的品种”,这样的品种目前是不存在的。所谓“香蕉苹果”,只能是一种有香蕉味的苹果,因此,根据概念组配原理,这个概念应当用“香蕉味的食品”和“苹果”两个词组配,才符合概念逻辑。

叙词语言吸收了多种情报检索语言的原理和方法,包括:

  • 它保留了单元词法组配的基本原理;
  • 采用组配分类法的概念组配,以及适当采用标题词语言的预先组配方法;
  • 采用标题词语言对语词进行严格规范化,以保证词与概念的一一对应;
  • 采用并进一步完善了标题词语言的参照系统,采用了体系分类法的基本原理编制叙词范畴索引和词族索引,采用叙词轮排索引,从多方面显示叙词的相关关系。

下面是美国Ei Compendex所使用的叙词表,以此说明叙词的使用。

Information retrieval
      Prior Terms:Information science--Information retrieval
      Broader Terms:Information analysis
      Related Terms:Data mining
                    Information retrieval systems
                    Intelligent agents
                    Query languages
                    Software agents
                    Thesauri
      Narrower Terms:Image retrieval
                    Online searching

主题词:Information retrieval为主题词。

标题词:Prior Terms为标题词,以前Ei使用的是标题词语言。

上位词:Broader Term为Information retrieval的上位词,也是一个叙词。

相关词:Data mining、Information retrieval systems、Intelligent agents等都是Information retrieval的相关词,也都是叙词。

下位词:Image retrieval和Online searching都是Information retrieval的下位类词,也都是叙词。

3.自然语言

自然语言检索用词是从信息内容本身抽取的,主要依赖于计算机自动抽词技术完成,加以人工自由标引,是非规范词(uncontrolled term)。

自然语言的标识包括:

关键词(keyword):指直接从文献的题目、摘要或正文中抽取出的代表文献主要内容的具有实质意义的词语。将文献中的一些主要关键词抽出作为检索标识,并以字顺排列而组成的查找文献用的语言,叫关键词语言。

题名:文献的名称,如论文篇名、图书书名、网站名称等。

全文:从文献的全部内容中自动抽取、查找,是目前网上各类搜索引擎使用最多的方法。

引文:将文献所引用的参考文献的作者、篇名、来源出版物抽取出来进行标引。