第五章 信息检索与检索效果评价
第一节 信息检索概述
一、信息检索的含义
通俗地说,信息检索(Information Retrieval)是指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程,其全称又叫“信息的存储与检索(Information Storage and Retrieval)”,这也是常说的广义的信息检索。狭义的信息检索则仅指该过程的后半部分,即从信息集合中找出所需要的信息的过程,相当于人们通常所说的信息查寻(Information Search)。在网络环境下,信息检索指用户从数字化的资源(包括数字图书馆、万维网和各类资料库)中获取有用的信息。信息检索的内涵随着时代发展而不断改变。20世纪中叶以前,信息的存储和传播主要以纸质媒介为载体,信息检索活动主要围绕相关文献的获取和利用而展开,因此“文献检索”一度被广泛使用。进入20世纪50年代,莫尔斯(Calvin N.Mooers)首次提出“信息检索(Information Retrieval)”一词。其后,信息传播方式和存储载体呈现多元化趋势,于是“情报检索”一词开始广泛使用。20世纪90年代以来,“信息检索”这一含义更为广泛的概念被广泛认同和使用。
二、信息检索的历史
最早的信息检索主要是依靠信息分类。早在2000多年前,我国的汉代就有简单的图书分类法,如《七略》。随着社会的发展,信息量越来越大,简单的分类已不能完全解决快速查找有用信息的问题,特别是随着科技期刊的大量出现,对于大多数人来说,已没有时间将所有期刊上的所有文献都阅读或浏览一遍,而且就一个读者来说,一本期刊中也不可能每篇文献都有阅读价值,因而出现了文献索引,读者可以根据自己的需要查找相关文献。之后,书目、索引、文摘、目录等检索工具不断出现。而印刷版的工具书主要根据文献的内部及外部特征,从题名、著者、主题词等途径提供手工检索。
信息检索技术经过索引检索、穿孔卡片检索、缩微胶卷检索、脱机批处理检索发展到今天的联机检索、光盘检索、网络检索,经历了由低级工具到高级工具的过程,检索技术也从传统的线性检索向超文本支持的非线性检索发展。现在是手工检索、联机检索、光盘检索、网络检索并存,但以网络检索为主,网络检索也最有发展前景。
(一)手工检索(1876—1945年)
信息检索起源于参考咨询工作。读者被要求独立使用图书馆提供的书目和索引工具,查询所需的文献和情报,这时“信息检索”作为一项行为已经出现,但较为分散,缺乏专业性,而且缺乏必要的重视和研究,未能形成专业化的情报检索系统。正规的参考咨询工作由美国的公共图书馆和大专院校图书馆于19世纪下半叶首先发展起来。20世纪初,多数图书馆成立了参考咨询部门,主要利用图书馆的书目工具来帮助读者查找图书、期刊。索引成为独立的检索工具,书目、文摘开始编制并用于专题文献检索。“信息检索”从此成为一项独立的用户服务工作,并逐渐从单纯的经验工作向科学化方向发展。
手工检索操作简单、费用低廉、查准率高,但效率很低,检全率不能保证。随着科学技术的发展,文献信息在不断增加。传统的利用印刷型文献进行手工检索的方式已不能适应信息的急剧增长,更跟不上时代发展的步伐。
(二)机械信息检索(1945—1954年)
机械信息检索系统是20世纪50年代前后开始的用各种机械装置进行情报检索的机械系统,是手工检索向计算机信息检索的过渡阶段。1954年,现代情报学创始人美国万尼瓦尔·布什(V.Bush)博士在“As we may think”一文中首次提出利用机械、电子技术实现情报检索的设想。他描述了一种叫作“Memex”的机器,用于非线性检索。他与美国农业部图书馆馆员拉尔夫·肖共同制造了一台快速检索机——布什肖检索机。它利用光电原理,对复制在胶卷上的文档进行检索,胶卷的边缘上有黑白点作编码,当遇到检索内容时就停下来。
机械信息检索系统利用当时先进的机械装置改进了信息的存储和检索方式,通过控制机械动作,借助机械信息处理机的数据识别功能代替部分人脑,促进了信息检索的自动化。但它并没有发展信息检索语言,只是采用单一的方法对固定的存储形式进行检索,而且过分依赖于设备,检索复杂,成本较高,检索效率和质量都不理想,机械信息检索系统很快被迅速发展的计算机情报检索系统取代。
(三)脱机批处理检索(1954—1965年)
自1946年第一台计算机问世,信息工作者就将这一新的技术与信息工作相结合,逐步建立了一种崭新的以计算机为核心的现代化信息系统。将计算机用于书目信息检索最早是在20世纪50年代提出来的,1954年美国海军军械实验中心利用IBM701机将有关海军军械的4000篇技术报告进行了计算机存储与检索的试验,建立了世界上第一个计算机文献信息检索系统。
脱机信息检索系统是计算机检索初期使用的一种检索系统。它是利用单台计算机的输入输出装置进行检索,用磁带作存储介质的系统。使用该系统查找文献时,计算机只能顺序检索磁带上记录的信息,每检索一次都必须从头到尾读一遍磁带,耗费时间。因此,必须用批处理方式来实施检索。由系统工作人员集中一批用户的信息要求,预先制定好检索策略,以机读形式存储在检索系统的计算机存储器中,定期地检索数据库新增加的内容,然后把命中的文献信息分发给用户。由于在检索过程中用户不直接与计算机接触,因此称之为脱机检索或定题检索,所用的系统称为脱机检索系统。
脱机批处理信息检索存在以下不足:一是地理上的障碍,用户与检索人员距离较远时,不便于检索要求的表达和检索结果的获取;二是时间上的迟滞,检索人员定期检索,用户不能及时获取所需信息;三是封闭式的检索,检索策略一经检索人员输入系统就不能更改,更不能依据机检应答来修改检索式。
(四)联机检索(1965—1991年)
20世纪60年代中后期,对联机信息检索进行研究开发试验。1965年,美国系统发展公司(SDC)研制成功联机信息检索软件,并取得突破性进展。在利用Dialog等国际联机检索系统进行国际联机检索服务的基础上,20世纪90年代,我国开发研制出了自己的信息检索系统,如北京文献服务处联机信息检索系统(Beijing Document Service Information Retrieval System, BDSIRS)、原机电部情报所的机电联机信息检索系统(Ministry of Machinery &Electronic Industry Information Retrieval System, MEIRS)、原化工部的化工联机信息检索系统(Chemical Online Information Center, CHOICE)等,并开始对外服务。
(五)网络信息检索(1991年至今)
进入20世纪90年代,随着卫星通信、公共数据通信、光纤通信等技术以及信息高速公路在全世界的迅猛发展,计算机信息检索走向了全球大联网。
网络信息检索是在国际联机检索和光盘检索之后发展起来的、通过Internet对远程计算机上的信息进行检索。与国际联机检索相比,其最大优点在于经济;与光盘检索相比,其最大优点在于内容更新快。网络信息检索与国际联机检索和光盘检索有许多相同之处,如需要数据库,要制定检索策略等。在网络信息检索系统中,客户和服务器是同等关系,只要遵守共同协议,一个服务器可被多个用户访问,一个客户也可访问多个服务器。
网络信息检索系统阶段实际上是计算机情报检索系统的延续。将1991年作为网络信息检索系统的开端,主要是因为这一年思维机公司推出了WAIS,允许用户检索整个因特网上文本信息资源;明尼苏达大学推出了Gopher,使用户能十分容易地存取因特网上的信息资源;同年www首次在因特网上露面,并获得了极大的成功。随之而来的因特网情报检索系统包括针对FTP资源的Archie,针对Gopher资源的Veronica和Jughead,以及WAIS的进一步发展,传统的联机检索向因特网上迁移。1992年,因特网向社会开放。
在因特网发展初期,网站相对较少,信息查找比较容易。然而伴随因特网爆炸性的发展,普通网络用户想找到所需的资料简直如同大海捞针,1994年4月,为了帮助用户全面、经济、快速地获取所需信息,斯坦福大学的两名博士生,David Filo和美籍华人杨致远(Gerry Yang)共同创办了网络资源目录Yahoo;同年7月,最早现代意义上的搜索引擎Lycos诞生,并成功地使搜索引擎的概念深入人心。从此搜索引擎进入了高速发展时期。与此同时,一些著名的联机检索系统也纷纷推出基于网络的检索界面。
上述5个信息检索阶段中,后三者统称为计算机信息检索。与手工检索相比,计算机信息检索的特点表现在:速度快、效率高,仅几分钟就可以从成千上万条记录中找出所需信息;检索范围广,可以迅速而方便地浏览相关学科或主题的所有数据库中的记录,在网络中,几乎每一台个人计算机都可以成为信息源;检索不受时空的限制,只要拥有相应的软件和硬件设备,就可以在任何地方借助光盘和通信网络查询所需信息。
三、信息检索的认识与发展
随着信息检索理论和实践的更新发展,人们对信息检索的认识也不断深入。
(一)时间性通信角度
莫尔斯在1950年发表了《把信息检索看作是时间性的通信》一文,不仅首次提出了信息检索这个概念,并认为“信息检索是一种时间性的通信形式”。换言之,通过信息检索得到了一些文献,从而使得著者与读者(信息检索的用户)之间建立了一种通信。
按照这种通信角度的理解,莫尔斯强调了在通信双方中,信息发送者必须尽可能发送一切信息,是时间性通信的被动一方;而信息读者则是主动活跃的一方,是读者决定什么时候接受以及如何接受。因此,信息检索的问题就在于,如何把一个可能的用户指引向所储存的信息。
这种理解突出了用户需求的重要性,对于如何做好信息检索服务工作依然具有很强的理论和实践意义。
(二)信息处理角度
从信息处理的角度来看,信息检索的基本问题,是如何处理信息和信息的结构。这种理解偏重于信息管理,理解信息不仅限于文献的范围,图像、声音、数据等也都反映信息,并把信息检索视为计算机科学技术的一个分支。
把信息检索看作是一种信息处理的理解,强调了如何构造以及使用什么形式来构造信息结构的问题。在当今因特网迅速发展、网络信息浩如烟海的情况下,这种理解对于信息检索工具的设计和组建,具有指导意义。
(三)文献查找角度
简言之,从这种角度来看,信息检索就是查找出含有用户所需信息的文献的过程。在信息检索领域,这是一种传统的主流观点,支持者众多。例如,英国著名学者维克利(B.C.Vickery)认为,“信息检索是从汇集的文献中选出特定用户在特定时间所需信息的操作过程”;美国著名信息专家兰卡斯特(F.W.Lancsste)认为,“信息检索是查找某一文献库的过程,以便找出那些某一主题的文献”。关于这种理解,兰卡斯特的经典表述是“信息检索系统并不检索信息”。因为信息是无形的,必须依附于文献而存在。虽然信息检索的最终结果是满足用户的信息需求,但检索的直接对象还是文献,当用户阅读文献并理解其内容时,用户的信息需求才被满足。
之所以产生上述三种不同的理解,主要有两方面的原因:一方面,理解任何事物都可以有多种角度,由此产生各种不同看法也很正常;另一方面,信息检索本身的技术发展,也使人们对于信息检索的理解不断发生变化。实际上,信息检索具有广义和狭义两重含义。广义地讲,信息检索包含信息储存和信息查找两个过程。信息储存是对文献进行收集、标引及著录,并加以有序化编排,编制信息检索工具的过程;信息查找是从大量的信息中查找出用户所需的特定信息的过程。实施检索的主要方法就是利用各种检索工具。狭义地讲,信息检索仅仅指信息查找的过程。
我们可以这样定义信息检索:从信息集合中迅速、准确地查找出所需信息的程序和方法。这里所说的信息集合指的是有组织的信息整体,它可以是数据库的全部记录,也可以是某种检索工具,还可以是某个图书馆的全部馆藏。信息检索也就是从数据库、检索工具以及馆藏中查找所需信息的活动。
在信息检索之前,人们多用文献检索的概念,文献检索是指查找或提供用户所需要的各种类型文献的过程,强调了检索对象。从内涵上讲,信息检索不仅包括文献检索,还包括非文献型的口头与实物信息检索等;从更高的层次上讲,信息检索是通过对信息的辨识、析取、组织、挖掘、集成等深度加工后,获取隐含在文献中的知识的过程,强调了检索的最终目的。信息检索这一概念被广泛运用,充分体现了当前业界对检索及其技术的认识。
四、信息检索的过程与原理
信息检索是指用户根据研究、教学、创作和学习的需要,利用相关信息检索系统,辅以科学的检索方法,按一定的检索表达式,从众多的按特定方式组织与存储的信息资源系统中检索所需要信息的过程。
信息检索的全过程主要包括两个方面:
首先,信息标引和存储过程——对大量无序的信息资源,在分析文献内容的基础上,按照相关检索语言的要求及其使用原则对其进行标引处理或称之为特征信息的归档处理,使之有序化,形成信息特征标志,并按科学的方法存储,组成检索工具或检索文档,这即是组织检索系统的过程。
其次,信息的需求分析和检索过程——分析用户的信息需求,利用已组织好的检索系统,按照系统提供的方法与途径检索有关信息,即检索系统的应用过程。
综上所述,信息检索的基本原理,就是用户根据课题需要,将代表需要查找的检索提问标识与文献库中所存储的文献特征标识进行比较,当文献库中所存储的文献特征标识与检索提问标识相一致,或文献特征标识包含了检索提问标识时,那么具有这些特征的标识就被检出,即是命中的结果。其原理如图5-1所示:
存贮过程
图5-1 信息检索原理图
由图5-1可见,信息检索的本质其实是一个匹配的过程,即信息用户的需求和一定的信息集合的比较和选择过程,也就是用户根据自己的需求提出相关概念或提问表达式与一定的信息资源系统检索语言相匹配的过程。如果二者相匹配成功,则所需信息就被检索中,否则检索失败。例如要查找关于“信息技术在网络艺术中的应用”方面的信息,根据信息需求的范围和深度,可选择“信息技术”和“网络艺术”为第一层次的检索词,“计算机技术”与“媒体艺术”等为第二层次的检索词,“视频流技术、影像技术、动画制作”与“Flash、动画、网上绘画”等为第三层次的检索词,将这些检索词与相应的信息集合中的检索特征进行匹配,若达到一致或部分一致,即为所需信息。
然而,由于职业、知识水平、个人素质甚至习惯等因素的差异,信息存储人员(标引者)与信息检索用户(检索者)对同一信息的分析、理解也会存在不同。比如《计算机在生物化学中的应用》一文,标引者可能将其归入“生物化学”类,而检索者则可能在“计算机”类查找该文。这样,标引者与检索者之间发生了标引错位,存储的信息就无法检索到。
怎样才能保证信息存得进又取得出呢?那就是存储与检索所依据的规则必须一致,也就是说,标引者与检索者必须遵守相同的标引规则。这样,无论什么样的标引者,对同一篇文献的标引结果一致,不论是谁来检索,都能查到该文献。
信息存储与检索共同遵循的规则称为信息检索语言。只要标引者和检索者用同一种检索语言来标引要存入的信息特征和要查找的检索提问,使它们变成一致的标识形式,信息的存储过程与检索过程就具备了相符性。相应地,存入的文献也就可以通过信息检索工具(系统)检索出来。如果检索失败了,那么就要分析一下检索提问是否确切地描述了待查课题的主题概念,在利用检索语言标引时是否出了差错,从而导致检索提问标识错误。只有检索提问标识和信息特征标识一致时,相关的文献才能被检索出来。
信息检索正是以信息的存储与检索之间的相符性为基础的。如果两个过程不能相符,那么信息检索就失去了基础。检索不到所需的信息,存储也就失去了意义。
五、信息检索的类型
从不同的角度出发,信息检索有着不同的认知内涵。了解这一点有助于从系统的角度出发去明辨自己实施的检索行为,从而提高自身的综合信息素质。
(一)按检索内容划分
(1)文献检索(Document Retrieval)。文献检索即从一个文献集合中查找出专门包含所需信息内容的文献,是以文献为检索对象的信息检索类型。文献检索根据所检索内容的不同分为书目检索和全文检索。凡是查找某一课题、某一著者、某一地域、某一机构、某一事物的有关文献的出处和收藏单位等,均属于文献检索的范畴,文献检索结果提供的是与用户信息需求相关的文献的线索或原文。
文献检索是一种不确定性检索,多利用专题检索工具,包括目录、题录、文摘、索引与搜索引擎等类型及其相对应的数据库资源与网络资源。数据与事实检索得到的是字、词、事物的概念、人名、机构名、地名、公式、参数、规格、型号等,所得结果非常准确、确定,因而是一种确定性检索。数据与事实检索主要使用数据事实工具检索,包括词典、百科全书、手册、名录、年鉴、指南等类型及其相对应的数据库资源与网络资源。
(2)数据检索(Data Retrieval)。以特定数据为检索对象和检索目的的信息检索类型称为数据检索。它包括数据图表,某物质材料成分、性能、图谱、市场行情,物质的物理与化学特性,设备的型号与规格等,是一种确定性检索。例如,查找“大众公司新款汽车发动机的型号与性能参数”“北京今冬大白菜的最新价格行情”“今日各大股市股票和黄金市场升跌指数”等,信息用户检索到的各种数据是确定的,这里的数据检索强调只对单纯数值进行检索。
(3)事实检索(Fact Retrieval)。事实检索是获取以事物的实际情况为基础而集合生成新的分析结果的一类信息检索,是以从文献中抽取的事项为检索内容,包括事物的基本概念、基本情况,事物发生的时间、地点、相关事实与过程等。针对查询要求,事实检索的结果需经检索系统或人工分析、比较、评价、推理后再得出,是一种确定的检索。例如,查找“美国9·11事件发生的经过与结果处理”“西南科技大学的发展状况”“国内最大的电子商务网站是哪一个”“汽车上金属漆好还是不上金属漆好?能比较二者的优缺点吗”等均属于事实检索。当然,在事实检索的对象中既包括非数值信息,也包括一些数据信息,故很多时候在介绍查找事实数据的检索工具时,将数据检索工具与事实检索工具统称为事实数据检索工具,而不分开介绍。
(二)按检索手段划分
(1)手工检索(手检)。手工检索多以书本式或卡片式检索工具为主,手工检索需要了解标引规则,按规则进行各项的著录方式,检索者根据文献标引规则查阅有关文献,是计算机检索方法的基本功之一。手工检索能了解各类检索刊的收录范围、专业覆盖面、特点和编制要点,可以提高查全率和查准率。因此,手工检索仍不失为较好的检索手段,专题的检索工具刊可与综合检索工具刊(或数据库)相互补充使用,以免漏检,影响查全率和查准率。手工检索也便于检索策略的制订和修改,手工检索过程发现问题,可以及时修改和提出合乎逻辑的提问式,选准检索词,再利用计算机检索,缩短机检时间,查全查准。利用手工检索,灵活性高,费用低,又能与机检互为补充,在今后相当长时期内,手工检索方法仍是重要的检索手段。
(2)计算机检索(机检)。计算机检索就是将大量的文献资料或数据进行加工整理,按一定格式存储在计算机上,建成机读数据库,利用计算机对数据库进行检索的信息检索方式。与手工检索相比,计算机检索速度快,效率高,查全率高,不受时空限制,检索结果的输出方式多样等,但查准率与网络及数据库质量的高低直接相关。随着Internet的普及,计算机检索是我们获取信息主要利用的检索方式。计算机检索经历了脱机批处理(二十世纪五六十年代)、联机检索、光盘检索(20世纪80年代以来)和目前的网络信息检索几个阶段。
①联机检索是借助计算机检索终端,通过通信线路与网络或资源,如Dialog联机检索。
②光盘检索利用微机和光盘驱动器,对光盘数据库进行文献信息检索,是一种典型的脱机(Offline)检索(对计算机系统外存设备中的信息资源进行的检索也是脱机检索,如对附书的光盘、磁盘、磁带的利用,又称为单机信息检索)。光盘检索系统是利用光盘驱动器、光盘数据库及其检索软件,结合计算机建立起来的信息检索系统。
③网络信息检索的用户通过网络接口软件,可在任一终端查询、共享远程异地主机上的信息资源,所以网络检索也是一种广义的联机检索。其检索速度快,效率高、交互性强、输出方式灵活多样,不受时空限制。计算机检索不仅能够跨越时空,在短时间内查阅大型数据库,还能快速地对几十年前的文献资料进行回溯检索,而且大多数联机或网络检索系统数据库中的数据更新速度非常快,信息用户通过计算机信息检索随时可以得到更新的信息。
目前科技发展迅速,知识和信息产量呈指数级增长,国际间的合作和联系与各国科技发展密切相关,学科间相互交叉、相互渗透,边缘学科发展很快,科学技术的综合性越来越强,因此培养21世纪人才,必须借助于现代信息技术。Internet是世界范围的联网信息系统,通过此国际计算机互联网络,才能及时获取所需信息,与世界交流合作,及时进入相关学科领域,参与世界的科技竞争。因此,兴建信息高速公路,开发网络信息技术,加快计算机联网,利用全球网络信息,开发国内信息资源极为重要。
(三)按系统中信息的组织方式划分
(1)全文检索(Full Text Retrieval)。全文检索是指检索系统中存储的是整篇文章乃至整本书。用户根据个人的需求从中获取有关的章、段、节、句等信息,并且还可以做各种统计和分析。
(2)超文本检索(Hyper Text Retrieval)。超文本检索是对每个中心节点之间的语义联结结构,靠系统提供的工具进行图示穿行和节点展示,提供浏览式查询,可进行跨库检索。
超文本结构类似于人类的联想记忆结构,它采用一种非线性的网状结构组织块状信息,有固定的顺序,也不要求读者必须按照某个顺序来阅读。采用这种网状结构,各信息块很容易按照信息的原始结构或人们的“联想”关系加以组织。
(3)超媒体检索(Hyper Media Retrieval)。超媒体检索是对存储的文本、图像、声音等多种媒体信息的检索。它是多维存储结构,有向的链接,与超文本检索一样,可提供浏览式查询和跨库检索。