
1.4 信息检索基础知识
信息检索(Information Retrieval)是一门依据一定的方法和策略,从一定规模的文档库(Document Collection)中找出满足用户需求的特定信息的学问。
1.4.1 信息检索的定义
信息检索是信息正式交流方式中的一种。广义上说,信息检索是指将信息按照一定的方式组织和存储起来,并能根据信息用户的需要找出其中相关信息的过程。从本质上讲,信息检索是一种有目的和组织化的信息存取活动,其中包括“存”和“取”两个基本环节。对于“存”来说,主要指面向来自各种渠道的大量信息资源而进行的高度组织化的存储;对于“取”来说,则要求面向随机出现的各种用户信息需求所进行的高度选择性的查找,并且尤其强调查找的快速与便利。
对信息用户而言,“取”更为重要,因此,狭义的信息检索一般仅指检索的过程。检索的本质是信息用户的需求和信息集合的比较与选择,即匹配(Match)的过程。从用户需求出发,对一定的信息集合(系统)采用一定的技术手段,根据一定的线索与准则找出(命中)相关的信息的过程,就是检索。
下面给出了几个与信息检索相关的概念,以便于读者在后续学习中理解和应用。
1. 信息需求的处理与加工
采用特定的检索语言将信息需求表示出来,换而言之,将检索问题或课题进行处理,抽取出主题内容或其他特征。经过这样处理的信息需求称之为Query。
2. 信息集合
它是指某一领域的文献或数据的集合。
3. 检索点
每个信息都包含有其内部和外部的特征,即信息的属性,这些特征(或属性)可以用来作为检索的出发点和匹配的依据,称为检索点。
4. 匹配与选择
匹配与选择是负责把需求集合与信息集合进行相似性比较,然后根据一定的标准选出符合需要的信息的机制。
可以将上述概念串连起来,如图1-4所示。

图1-4 计算机信息存储检索处理流程
图1-4是一个基于计算机环境的信息检索处理过程图。在图中以中间为界,信息检索处理过程被分解为“信息存储”(左侧)与“信息查询”(右侧)两个部分。其中“信息存储”部分包括“信息采集”“信息特征提取/表示”“创建/更新数据库”等多个处理模块,并最终以数据库的形式完成了信息的收集、加工(标引)和存储任务。而“信息查询”部分则通过“检索接口”“提问处理”和“检索匹配”等一系列功能模块的配合,以人机对话方式完成用户对系统的访问和信息查询的功能。
1.4.2 信息检索的产生和发展
信息检索的基础是信息源。从人类社会的产生开始,信息就开始出现在我们生活的各个方面。从最初的以结绳记数的形式存储信息,到后来文字的出现,再到印刷术、计算机和通信卫星的使用,信息检索随着信息技术的进步而发展,检索的方法和手段也不断地得到改进。根据信息技术的发展,信息检索的发展历程分为4个不同的历史阶段。
1. 初始阶段
由于人类产生的信息是无规律的,为了将信息有效地组织起来,以便于对过去的历史信息进行有效的利用,人们开始对有用的历史信息进行一定方法的组织和存储,开始了信息的存储与检索的初始阶段。汉代的《别录》是最早出现的检索工具书。
2. 手工检索阶段
从1830年到20世纪70年代初期,是近代信息检索真正的开始和发展阶段。1830年柏林科学院在柏林和莱比锡出版了著名的文摘刊物《药学总览》,这一事件作为文摘刊物单独编辑出版并走向成熟的标志,一般被认为是手工信息检索工作的开端。20世纪70年代初起,基于计算机技术的联机信息检索开始步入商业应用。在这段时间里,手工检索仍处于主流地位并达到其发展的高潮。
3. 计算机化检索阶段
自1946年第一台电子计算机问世以来,计算机在信息检索领域的应用探索便不断取得突破与成功。计算机化的信息检索主要经历了早期的脱机批处理(Off-Line Batch Processing,1954—1964),后来的联机实时检索(On-Line Real Time,1965—1975)以及功能更为先进和强大的联机网络、光盘检索和多元化信息检索(1975—1990)等不同发展阶段。其主要特点可以概括为:以各类机读数据库为检索对象,各类情报所、联机服务中心作为新兴的信息服务部门而存在,信息检索用户逐渐由专业检索人员向个人终端用户转移。
计算机化检索过程如图1-5所示。可见,手工检索的优缺点和计算机化检索差不多刚好相反。计算机检索的优点是速度快、省时省力、覆盖率高,甚至可以查到国外刚出版的相关文献信息;缺点是查询的资料受数据库收录文献年限的限制,且检索费用较高。而手工检索的优点是检索的时间和检索的范围不受限制,且检索费用低廉;但是,手工检索耗时耗人力、效率较低。在当今信息爆炸的时代,手工检索的结果往往远不如计算机检索的准确、理想。

图1-5 计算机化检索结构图
4. 网络化检索阶段
20世纪90年代以来,网络的迅速普及和发展给检索领域开辟了新的应用环境。信息检索随着社会信息化、网络化进程的发展,其主流平台迅速转移到以WWW为核心的网络应用环境中,信息检索开始步入网络化检索时期。
因特网的检索可同时使用网上多个主机,并不需要用户预先知道它们的具体地址。这就极大地拓宽了其检索的空间和信息量,包括各种文献信息资源及其指向的网络页面。而传统的联机检索、光盘检索只局限在对一台或几台主机上的特定数据库的检索。但在另一方面,因特网信息庞杂,正式与非正式信息及其交流渠道共存,信息缺乏有效的组织管理,因此很难用一般意义上的查全、查准这些概念来衡量其检索。
网络化检索过程如图1-6所示。

图1-6 网络化检索结构图
随着因特网越来越普及以及IT技术的不断进步,网络中的信息量呈现爆炸式膨胀,信息检索也随之呈现出一些新的变化趋势,主要包括以下特点:智能化;可视化;简单化;多样化;个性化;商业化。
1.4.3 信息检索的对象及意义
1. 信息检索的对象
信息检索的对象主要包括文献检索、数据检索和事实检索。
(1)文献检索
文献检索(Document Retrieval)是以文献(包括题录、文摘和全文)为检索对象的检索,可分为全文检索和书目检索两种,主要借助于检索工具书和文献数据库。
(2)数据检索
数据检索(Data Retrieval)是以数值或数据(包括数据、图表、公式等)为对象的检索,主要借助于参考工具书和数据库。
(3)事实检索
事实检索(Fact Retrieval)是以某一客观事实为检索对象,查找某一事物发生的时间、地点及过程的检索,主要借助于参考工具书和数据型数据库。
2. 信息检索的要素
信息检索的要素包括4个方面:信息意识,信息源,信息的获取能力和信息的利用。
简单地说,信息意识,是人们利用信息系统获取所需信息的内在动因,具体表现为对信息的敏感性、选择能力和消化吸收能力。信息意识含有信息认知、信息情感和信息行为倾向3个层面,是信息检索的前提。
信息源即信息的来源,是信息检索的基础。
信息的获取能力是检索的核心,关系到最终检索的结果。要求检索者了解各种信息来源,掌握检索语言,熟练使用检索工具,能对检索效果进行判断和评价。
信息的利用是检索的目的和关键。社会进步的过程就是一个知识不断的生产、流通、再生产的过程。为了全面、有效地利用现有知识和信息,在学习、科学研究和生活过程中,信息检索的时间比例逐渐增高。
3. 信息检索的作用和意义
信息检索的作用与意义主要体现在以下3方面。
(1)避免重复研究或走弯路
在研究工作中,任何一个课题从选题、试验直到出成果,每一个环节都离不开信息。研究人员在选题开始就必须进行信息检索,了解此领域到目前为止已经做了哪些工作,哪些工作正在进行,什么人在做,研究情况如何等。通过信息检索,可以帮助研究人员继承和借鉴前人的研究成果,在他人研究的基础上进行再创造,从而避免重复研究,少走或不走弯路。
(2)节省研究人员的时间
科学技术的迅猛发展加速了信息的增长,加重了信息用户搜集信息的负担。信息检索是研究工作的基础和必要环节,成功的信息检索无疑会节省研究人员的大量时间,使其能用更多的时间和精力进行科学研究。
(3)获取新知识的捷径
在信息技术飞速发展的今天,传统教育培养的知识型人才已满足不了改革环境下市场经济的需求,新形势要求培养的是能力型和创造型人才,具备这些能力的人才首先需要具备自学能力和独立的研究能力。大学生在校期间,掌握了一定的基础知识和专业知识。但是,“授之以鱼”只能让其享用一时。如果掌握了信息检索的方法便可以无师自通,找到一条吸收和利用大量新知识的捷径,把大家引导到更广阔的知识领域中去,从而对未知世界进行探索,是谓“教人以渔”,这样才能终身受用无穷。
1.4.4 信息检索目的分类
根据信息检索目的的不同,可以将其分为以下几类。
1. 学术性信息检索
此类信息检索的用户主要是科研机构的研究人员和高校师生,所检索的信息源首先是各种数据库,如期刊论文库、学位论文库、各种文摘数据库、专利数据库等,也包括散布于网络的其他各种信息。此类信息检索的特点是对查全率要求高,检索行为有延续性,注重对检索兴趣最新发展的跟踪等。
2. 休闲型信息检索
此类检索的主要目的是寻找新闻,欣赏文学、音乐、影视作品以及自学、充电等,涉及文本、图像、声音、视频检索。其特点是用户兴趣不稳定,经常与当前的流行热点有关,但一般没有连续性。这方面的检索技术主要是多媒体信息检索,即根据用户需求对文本、图像、声音、视频等多媒体信息进行识别并获取所需信息。
3. 实用性检索
此类检索主要指人们在生活中产生的一些临时查询需求,如查询某种商品信息、某种疾病的治疗方法、出行路线等。这类查询的目的是寻找某种实用信息,解决一定的问题,特点是要求信息准确、及时,但对查全率没有太高的要求,检索行为不具有延续性,检索内容五花八门,很难分类。
4. 决策型检索
科学公正的决策依赖于信息咨询,信息咨询成功的基础则是通过科学合理的信息检索获取大量有用的信息。大到公司的管理决策,小到个人的股票买卖、房产投资,无不如此。这方面的信息一般有专门的站点和检索系统。具体检索时,主要是一些事实、数据信息以及相关的政策、评论。决策型信息检索,除了一些专门的站点提供的信息,还需要从各个方面补充背景知识,要特别注意信息采集的全面性和来源的可靠性。
5. 混合型检索
此类检索综合集成以上各类信息检索中的两类或更多。其特点是,检索目标比较复杂,检索手段多样,涉及的技术基本涵盖上述4类检索。
1.4.5 信息资源和信息检索的分类
信息资源是一个发展中的概念,是一个具有丰富内涵的术语,随着现代信息技术(特别是计算机技术)以及信息资源管理理论的发展和普及而为人们所接受。从信息资源所描述的对象来看,信息资源由自然信息资源、机器信息资源、社会信息资源、实物型信息资源等组成;从信息资源的载体和存储方式来看,信息资源由天然型信息资源、智力型信息资源、实物型信息资源、文献型信息资源等构成;从信息资源的内容来看,信息资源由政治、法律、军事、经济、管理、科技等信息资源组成;从信息资源的反映面来看,信息资源由宏观信息资源和微观信息资源组成;从信息资源的开发程度来看,信息来源由未开发的信息资源(信息原料)和已开发的信息资源组成。
根据检索手段、检索结果的不同,可以对信息检索做如下归类。
1. 按存储的载体和查找的技术手段分类(按检索的手段)
(1)手工检索(Manual Retrieval)
手工检索,就是用人工方式查找所需信息的检索方式。检索的对象是书本型的检索工具,检索过程由人脑和手工操作相配合完成。
(2)机械检索(Mechanical Retrieval)
机械检索是利用机械装置来处理和查找文献的检索方式,包括以下两种。
① 穿孔卡片检索——Punch Card是一种由薄纸板制成的,用孔洞位置表示信息,通过穿孔或轧口方式记录和存储信息的方形卡片。
② 缩微品检索——把检索标识变成黑白点矩阵或条形码,存储在缩微胶片或胶卷上,利用光电效应,通过检索机查找。
(3)计算机检索(Computer-based Retrieval)
计算机检索是指把信息及其检索标识转换成电子计算机可以阅读的二进制编码,存储在磁性载体上,由计算机根据程序进行查找和输出。检索的对象是计算机检索系统,针对数据库进行,检索过程是在人与计算机的协同作用下完成的,匹配是由机器完成的。这里,检索的本质没有改变,变化了的只是信息的媒体形式、存储方式和匹配方法,具体方法包括以下4种。
① 脱机检索——成批处理检索提问的计算机检索方式。
② 联机检索——检索者通过检索终端和通信线路,直接查询检索系统数据库的机检方式。
③ 光盘检索——以光盘数据库为基础的一种独立的计算机检索,包括单机光盘检索和光盘网络检索两种类型。图1-7所示是一种提供检索服务的教育网用信息虚拟光盘库。

图1-7 提供检索服务的教育网用信息虚拟光盘库
④ 网络检索——利用E-mail、FTP、Telnet、Archie、WAIS、Gopher、Veronica、WWW等检索工具,在Internet等网络上进行信息存取的行为。
相比较而言,手工检索查准率较高,查全率较低;计算机检索查全率较高,查准率较低。
2. 按存储与检索的对象分类(按检索的结果)
(1)文献检索
文献检索(Document Retrieval)以包含用户所需特定信息的文献为检索对象,是指将文献按一定的方式存储起来,然后根据需要从中查出有关课题或主题文献的过程。文献检索是以文献为检索的一种相关性检索。
(2)数据检索
数据检索(Data Retrieval)以事实(Fact)和数据(Data)等浓缩信息作为检索对象,检索结果是用户直接可以利用的东西。这里的所谓科学数据,不仅包括数值形式的实验数据与工业技术数据,而且包括非数值形式的数据,如概念名词、人名地名、化合物分子式、化学结构式、工业产品设备名称、规格、科学论断等。
3. 按信息检索的内容类型分类
根据信息检索的内容类型分为文本检索、数值检索、音频与视频检索。
文本检索是以各种自然语言符号系统所表示的信息作为主要检索对象。
数值检索是将经过选择、整理、鉴定的数值数据存入数据手册、数据汇编或数据库中,然后根据需要查出可回答某一问题的数据的过程。
音频与视频检索可以理解为从音频或视频中搜索有用或者需要的资料。
1.4.6 信息检索的基本工具
1. 检索工具的定义
检索工具是为报道、存储和检索需要,按文献的内容特征或外部特征组织的二次文献出版物,是用来报道、存储和查找文献信息的信息集合,同时,它又是信息检索的主要手段和条件。然而,检索工具报道和存储的不是整篇文献,而是存储表达文献内容特征的主题词(包括关键词、叙词等)和分类号或表达文献外部特征的文献题名、著者、报告号、专利号等为标识的文献线索,人们可以依据文献线索决定取舍和索取原始文献。
为了能快速、准确地定位到用户所需信息,人们在长期的实践过程中,提出了压缩信息内容的办法,即提取信息特征,加以标引,并按一定的顺序组织起来,形成检索工具,使信息用户能以较少的时间从不同角度获取所需信息。
2. 检索工具的功能
检索工具的主要功能表现在存储和检索两个方面。一般而言,检索工具应具备以下功能。
(1)报道功能
检索工具将不同类型、不同语种的信息按学科或主题加以集中组织起来,并详细著录信息的外部特征(如书名、著者、网址等)和内容特征(如标题、主题、摘要等),以便信息用户按照这些报道线索查找所需的原始信息。
(2)标识功能
检索工具将所选择收录和分析整理后的信息按照一定的科学体系组织成一个有机的整体,同时给出多种检索标识,如主题词、分类号、著者姓名、期刊名称、文献序号等。检索标识是标引人员和信息用户共同遵守和进行沟通的符号,也是提高检索工具的存储质量和使用效率的重要依据。
(3)检索功能
检索工具必须具有多种辅助索引,以便用户从不同途径使用多种方法查找信息,例如,从关键词、主题、著者、机构等途径检索所需信息。辅助索引是否完善不仅是衡量检索工具质量的重要标准,也是信息用户能否充分利用信息的关键因素。
3. 检索工具的类型
庞大的信息数量给信息的检索和利用带来了很多困难,检索工具应运而生。由于检索工具的著录特征、报道范围、载体形式和检索手段等特征的不同,检索工具有多种划分方法。按收录的学科范围可分为综合性检索工具与专业性检索工具,按检索手段可分为手工检索工具与计算机检索工具,按收录信息来源的类型可分为单一检索工具与多类检索工具。
4. 检索工具的结构
手工检索工具一般由使用说明、目次表、正文、辅助索引、附录组成。计算机检索工具一般由检索软件与数据库组成。
(1)手工检索工具的结构
手工检索工具一般由以下几个部分组成。
① 使用说明:有的称为“范例”,一般包括编制目的、收录范围、著录格式、代号说明、使用举例及注意事项等,是用户使用前必须阅读的内容。
② 目次表:检索工具的正文一般按分类组织编排,前面大多有详略不同的目次表,作为从分类查找文献的依据。
③ 正文:这是检索工具的主体部分,由大量的描述信息外部特征和内容特征的若干款目按一定的排列方式组成,每个款目代表一篇文献信息,都有一个固定的序号以与其他款目区别开来,这个序号称为文摘号或顺序号。
④ 辅助索引:检索工具正文只提供单一线性检索方式,为了准确、快速、全面地查找所需信息,检索工具一般都编有索引,提供从主题、著者、序号等多种途径检索所需信息。掌握检索工具的实质就是熟悉各种辅助索引的使用方法。
⑤ 附录:附录部分主要是使用该检索工具时必须参考的一些内容,如引用期刊一览表、文献来源名称缩写与全称的对照表、缩略语的解释以及收藏单位代码等。
(2)计算机检索工具的结构
计算机检索工具通常由检索软件与数据库构成。
检索软件确定了该检索工具的检索方式,规定了检索系统的检索算符,不同的计算机检索工具采用不同的检索软件,但同一个数据库开发商往往采用统一的检索软件。
数据库主要由字段、记录、文档、帮助文件等组成。
① 字段:数据库最基本的著录单元称为字段,如题名字段、著者字段、刊名字段、文摘字段、主题词字段、关键词字段等。每一字段均有其标识符,其内容称作字段值或属性值。
② 记录:多个字段组成记录。不同数据库揭示信息的程度不同,其记录的字段数多少不等,有的记录由数十个字段组成,有的则只有几个字段。记录是按一定的标准格式化的,以便于计算机识别和存储。
③ 文档:经过有序化处理并附有检索标识的信息集合称为“文档”,它包括顺排文档和倒排文档。
④ 帮助文件:每个数据库都有帮助文件,可以使用户了解数据库的使用方法以及常见问题的解决方法。
1.4.7 信息检索的相关性
相关性(Relevance),是指信息检索系统针对用户的查询(Query)从文档集中检出的文档与查询之间的一种匹配关系。现代信息检索以自然语言文本为对象,从严格意义上讲,文档与查询之间不再是数据库检索中的那种简单的匹配关系。信息检索的相关性可以简单表述为:检索结果与用户需求的一致性程度。
影响信息检索相关性的因素有很多,包括用户信息需求的表达、相关度判断的算法、用户的主观判断等。
当前,信息检索的相关性主要包括手检相关性和机检相关性。
1. 手检相关性
这种相关性主要依赖于用户知识结构,项目进展阶段,用户心理,认知行为,认知能力等人为因素。为了提高手检相关性,用户需要详细分析概念及学科属性,增强对检索工具的了解,并最终调整检索策略。
2. 机检相关性
这种相关性主要是检索系统内部的相关性以及系统与用户的相关性,其主要内容包括如下方面。
(1)词频统计相关性
当用户输入检索词时,搜索引擎去找那些检索词在文章(网页)中出现频率较高的,位置较重要的,再加上一些对检索词本身常用程度的加权,最后排出一个结果来(检索结果页面)。
(2)位置相关性
根据关键词在文中出现的位置来判定文件的相关性。一般认为关键词出现得越靠前,文件的相关程度就越高。
(3)引用相关性
引用相关性主要包括科学引文分析和超链接分析等,例如,Web中各页面之间的链接关系是一项可以利用的重要信息。基于这种信息的技术被称为链接分析技术。
(4)单击率相关性
检索量是指关键字被检索后出现的总次数;单击次数是特定信息被检索后被单击的次数;单击率就是单击次数/检索量。单击率相关性可以反映关键词的重要性等特性。
(5)分类或聚类相关性
分类相关性是将一篇文章或文本自动地识别出来,按照已有的类别进行匹配、确定。聚类相关性是将一组的文章或文本或信息进行相关性的比较,将比较相关的文章或文本或信息归为同一组的技术。其中,目前采用较多的方法为模糊聚类。
1.4.8 信息的管理和综合利用
1. 信息的选择和整理
在进行科研活动时,一方面要借鉴前人和同行的研究成果,或解决问题,或在此基础上有所创新;另一方面要避免课题的重复研究,不要无谓地浪费精力和时间。
无论是为课题研究寻找答案,还是为学术论文写作积累资料,掌握信息检索的知识,便可以以最少的时间和精力获得最有用的资料,从而起到事半功倍的效果。具体地说,能够有效地利用现有的资源,熟悉各种检索方法和重要工具,进而具备检索信息、评估信息、组织信息及运用信息的能力,同时依照学术论文的格式撰写报告,是一个大学生进行独立学习及研究的重要能力与信息素养。
(1)信息资料的类型
信息资料包括两大类型:一类是直接的、原始的,是有关研究对象的数据、事实甚至是活材料;另一类是间接的,前人或同行对研究对象的论述,是第二手资料。
(2)信息资料的选择
当利用各种检索工具找到一些信息资料之后,可以看到有的能够直接获得全文,有的只有二次文献线索,还需要据此查找到原始文献。但必须认清这样一个事实,即并非所有资料都适合你的研究课题,并非找寻的所有资料都是可信的。因此有必要对所找寻的资料加以科学的分析、比较、归纳和综合研究,进行去粗取精、去伪存真的工作,以决定是否符合研究需要,从中筛选出可供学术参考的材料。
(3)信息资料的整理
用户在对获取的资料进行整理的过程中需要注意,首先要注明资料的出处,这样在以后的研究和学习中可以方便地引用。其次在资料的整理过程中,需要当机立断,果断地舍弃无用的和多余的资料,以使自己的资料库有序而不杂乱。
2. 正确地利用信息资源
生活在信息社会,我们要充分利用所收集到的信息,因此,必须有良好的信息素养。信息素养是现代人所必须具备的基本素质,它反映了人对信息的利用能力。
(1)正确辨识信息需求
正确辨识自己所需要信息的目的和实质,并将其正确地表达出来。
(2)迅速获取所需信息
能根据不同的信息需求,选择适合于自己需求的信息源,以最佳的方式,获取所需的信息,达到多、快、好、省。
(3)综合评估已获信息的能力
如已获取信息,可根据自身需要,做出恰当的分析和判断。综合阅读信息并辨别其真伪和优劣以及适用程度。
(4)善于加工信息素材的能力
对获取的各种载体信息要善于识别和熟悉其类型,并进行课题分析和分类以及存储处理等。
(5)消化吸收获得知识的能力
生活在信息时代,就需要我们善于捕捉、获取有用的信息,并正确地运用它创造价值,推动信息社会的发展。
3. 树立知识产权意识
知识产权是关于工业、科学、文学和艺术领域内以及其他来自智力活动所取得的一种财产属性的权利。随着国家政治、经济、文化、教育等领域的全面开放,经济全球化进程的不断加快和科学技术的迅猛发展,知识产权已成为经济社会发展的重要战略资源,成为决定一个国家和地区经济社会发展的关键性因素。
在对信息资料的检索和利用过程中,培养和树立知识产权意识是一个十分重要的方面。高等院校不仅要注重大学生信息能力的培养,同时对大学生信息道德的教育也不能忽视。大学生作为创新人才的主力军,应遵循信息社会的法律法规,尊重他人的知识产权和劳动成果,不侵犯他人的商业秘密、隐私权。在从事信息产业与信息经济开发活动中,要防止计算机病毒,自觉抵制诸如信息泄密、信息犯罪等活动。