任务二 信息检索技术方式及发展
从历史发展来看,信息检索起源于图书馆的参考咨询和文摘索引工作,从信息检索诞生起,信息检索技术就伴随其一起成长发展。
从19世纪下半叶至20世纪40年代,索引和检索已成为图书馆独立的工具和用户服务项目。随着1946年世界上第一台电子计算机的问世,计算机技术逐步走进信息检索领域。20世纪60年代到80年代,在信息处理技术、通信技术、计算机和数据库技术的推动下,信息检索在教育、军事和商业等各领域高速发展,得到了广泛的应用。20世纪90年代中期出现了检索万维网信息资源的搜索引擎技术。21世纪是一个高度信息化的社会,信息就是商品,信息就是财富,信息就是资源,信息就是机会,因此人人都渴望及时获得有用的信息。许多新兴的检索技术也逐渐被人们所认同和使用。
1.传统信息检索技术
(1)布尔逻辑(Boolean logic)检索,是一种开发较早,比较成熟,较为流行的检索技术。其基础是布尔逻辑算符。布尔逻辑算符用来表示两个检索单元(检索项或检索词)之间的逻辑关系,在检索表达式中起着逻辑组配的作用,能把一些具有简单概念的检索词(或检索项)组配成一个具有复杂概念的检索式,用以表达用户的检索要求。它是一种在信息检索系统中广泛应用的检索技术,大多数检索系统(或数据库)都支持布尔逻辑检索。
常用的布尔逻辑算符有3种:逻辑“与”(AND)、逻辑“或”(OR)、逻辑“非”(NOT)。假设有两个检索项或检索词A和B,它们的3种逻辑组配关系及检索结果如表2-1所示。
表2-1 3种逻辑组配关系及检索结果
①逻辑“与”。
逻辑“与”是用于表示交叉关系或限定关系的一种组配,用“AND”、“and”、“*”或“&”算符表示。例如,检索式“A AND B”,表示检索的文献记录中必须同时含有A和B才算命中。这种组配可用于对检索词进行限定,从而缩小检索范围,有利于提高检索结果的查准率。
②逻辑“或”。
逻辑“或”是用于表示并列关系的一种组配,用来表示相同概念的词之间的关系,用“OR”、“or”、“+”或“|”算符表示。例如,检索式“A OR B”,表示检索的文献记录中只要含有A或B中的任何一个即算命中。这种组配可用于扩大检索范围,增加命中文献数量,有利于提高检索结果的查全率。
③逻辑“非”。
逻辑“非”是用于在检索范围中排除不需要的概念或排除影响检索结果的概念,用“NOT”、“not”、“-”或“!”算符表示。例如,检索式“A NOT B”,表示检索记录中含有A不含B的记录被检出。这种组配能够缩小命中文献的范围,增强检索的准确性。
④使用布尔逻辑运算符的注意事项。
需要注意的是,以上3种逻辑算符在检索时有时会同时使用,一般情况下,如果检索系统不做说明,系统默认的检索顺序为:逻辑“非”—逻辑“与”—逻辑“或”,若有括号,优先运算括号中的算符,这同算术运算中的四则运算相似。
大多数检索系统(数据库)都支持布尔逻辑检索,但表现形式不尽相同,有的使用AND、OR、NOT(有的要求用大写,有的要求用小写,有的则大、小写均可),有的以符号(+、-、*、&、|、!)代替,还有的直接把逻辑运算关系隐含在菜单中。
(2)位置检索。也叫临近检索,适用于两个检索词以指定的间隔距离或指定的顺序出现的场合,位置检索是调整检索策略的一种必要手段,是对数据库记录的全文本检索,即记录中的每个词都可以作为检索入口,且可以限定词与词之问的语义关系。即使将布尔逻辑检索、截词检索和限定检索技术组合在一起,也只能局限在字段一级的检索水平,只能反映出某词汇是否出现在某个字段,无法表现出检索词与检索词之间的位置逻辑关系。位置检索技术正是为了弥补上述各种技术的不足而提出来的。
按照两个检索词出现的顺序和距离,可以有多种位置算符。而且对同一位置算符,检索系统不同,规定的位置算符也不同。常用的位置算符如表2-2所示。
表2-2 常用的位置算符
①(W)算符与(nW)算符。(W)算符是“With”的缩写,表示此算符两侧的检索词必须按此前后邻接的顺序排列,不可颠倒,而且检索词之间不允许有其他的词或字母,但允许有空格或连字符号。例如,teaching(W)method仅表示“teaching method”这个词组,其中teaching和method两词次序不能颠倒。
(nW)表示此算符两侧的检索词之间允许插入几个词,但两个检索词的次序还是不能颠倒。例如,wear(1W)materials可检索出wear of materials和wear materials。
②(N)算符与(nN)算符。(N)算符是“Near”的缩写,表示此算符两侧的检索词彼此必须相邻,但两个检索词的前后关系可以颠倒。例如,money(N)supply可检索出money supply和supply money两个词组。
(nN)表示此算符两边的检索词之间可插入几个词,且两个检索词的次序可以任意颠倒。例如,economy(2N)recovery可检索出economy recovery、recovery of the economy等词组。(N)算符也可以用于多词邻接,但处理的次序是从左到右进行的。
③子字段检索算符(S)。子字段检索算符(S)指定算符两侧的检索词出现在同一个子字段中,在文摘中可以用来限定在同一句子中检索,并且检索词之间的单元词数可以是不定的,且前后关系不限。例如,Literature(S)foundation,只要literature和foundation两词出现在同一句子中,就满足检索条件。
(S)算符比起(W)、(N)算符,其词间位置关系放松了。因为在某些检索中,用户对检索词之间的位置关系的要求不像(W)、(N)那么严格,但还是要求有一定的上下文关系,那么使用(S)算符检索就比较合适。
④同字段检索算符(F)和(L)。(F)算符是“Field(字段)”的缩写,表示在算符两侧的检索词须同时出现在数据库记录的同一字段中,词序可变。字段类型可用限制符限定。例如,environmental(F)impact/DE,TI表示这两个词必须同时出现在叙词字段和篇名字段中。
(L)算符是“Link(连接)”的缩写,表示(L)两侧的检索词之间有一定的从属关系。在某些数据库中,叙词字段存在着主标题词与副标题词,副标题词一般是修饰主标题词或限定主标题词的,二者之间有一定的从属关系。例如,aircraft是主标题词,agricultural applications是副标题词,可用(L)算符将主、副标题连接起来,达到检索的准确度,如aircraft(L)agricultural applications/DE。(L)算符的检索,只适用于叙词字段。
位置检索的位置算符按检索逐渐宽泛的次序可依次排列如下:(W)—(N)—(S)—(F)。按照这个次序,检索出的文献一个比一个多,但同时误检率也相应提高了。位置检索的位置算符可以单独使用,也可以混合在一起使用,并且可以与布尔逻辑算符一起混合使用,以组成比较复杂的检索提问表达式。
系统在处理检索式时,位置算符是从左到右运算的,因此,用户在编制检索式时,应将最专指的位置算符放在前面。例如,redwood(W)deck (F)patio,先处理(W),再处理(F)位置算符。
位置算符与逻辑算符结合在一起时,如果没有括号(括号优先处理),则位置算符先于逻辑算符执行。例如,talent(W)child and school(W)education,先处理W算符,再处理and算符。而gifted or talent(W)(child or children),则先处理括号中or运算。
(3)截词检索。截词检索是指在检索式中使用专门的符号(截词符号),以表示检索词的某一部分允许有一定的词形变化,用检索词的词干或不完整的词形查找信息的一种检索方法。凡是满足这个词局部的所有字符的文献,都被认为是命中的文献。截词是指在检索词的某个局部截断,采用截词符可构成模糊检索,主要是利用某些检索词的词干或不完整词形加上截词符进行检索,其目的是查找某一词干的不同变化形式,做到一词多用。在实际检索的过程中,为了减少检索词的输入量,同时又扩大检索范围,保证查全率,可以使用截词检索。
截词检索技术在计算机检索系统中的应用非常普遍。特别是西文检索中,经常会遇到名词的单复数形式不一致,同一个词其美英拼法不一致,由同一词可能形成许多意义相近、但词尾或词头不一致的派生词等。对于词干相同而词尾不同的词,如library、libraries、librarian、librarianship,以及一些不同拼法的词,如defence、defense,如果检索时将这类词全部输入,会增加检索的时间和费用,而且有可能造成漏检。使用截词检索可以减少检索词的输入量,简化检索程序,扩大检索范围,从而节省时间,降低费用,提高查全率。
截词方式有多种,按所截字符的数量来分,有无限截词和有限截词两种方式。按截词的位置来分,有前截词、后截词、前后截词、中间截词4种方式,较为常用的是后截词与中间截词;常用的截词符号有“?”、“*”、“#”、“%”等。
有限截词又称为有限截断,指对截词符代表的字符数进行限定,说明具体截去的字符的数量,一般用“?”表示。例如“work???”表示“work”后可添加的字符数小于等于3个,检索出来的结果可能有work、works、worker、workers、working等。
无限截词,又称为无限截断,指对截词符代表的字符数不进行限定,即不说明具体截取字符的数量,一般用“*”表示。例如,“comput*”表示“comput”后可添加任意多个字符,这些变化形式都被作为检索词进行检索,其检索结果中可能有compute、computed、computer、computers、computing、computable、computations、computerize、computerization等。
①前截词,又称左截词、前截断,允许检索词的前端有一定形式的变化。检索时将截词符放在一个字符串的左方,只要数据中具有与截词符后面部分字符串相同的检索词的信息,即为命中信息。如“?computer”表示“computer”左边可以有一定变化,其检索结果中可能有computer,microcomputer等。这实际上相当于中文检索系统中的“后方一致”的匹配方式,对汉语中的复合词组的检索非常方便。
②后截词,又称为右截词、后截断,允许检索词的词尾有一定形式的变化。检索时将截词符号放在一个字符串的右边,只要数据中具有与截词符前面部分字符串相同的检索词的信息,即为命中信息。如“comput?”表示“computer”右边可以有一定变化,其检索结果中可能有compute、computed、computer,computers、computing、computable、computations、computerize、computerization等。这实际上相当于中文检索系统中的“前方一致”的匹配方式。
③前后截词,又称为前后截断,把截词符放在检索词的两边,允许检索词的前面部分、后面部分有一定形式的变化,即检索词中间一致,任意一致。如“?computer?”可检索computer、computers、computerize、computerized、computerization、minicomputer、minicomputers、microcomputer、microcomputers等结果。这实际上相当于中文检索系统中的“模糊”匹配方式。
④中间截词,又称为前后方一致,指把截词符放在检索词的中间,允许检索词中间有若干变化。如“wom*n”可以检索到woman、women的结果,defen*e可以检索出defence和defense的结果。这种截词方式在查找英美不同拼法的语词时最为有效。
在截词符的使用当中,有一种较为通行的说法,把中截断和后截断叫做通配符(Wildcard),原理、用法大致相同。使用截词符时应注意,在不同的检索系统或数据库中,所使用的截词符号没有统一的规定,有的用“?”,有的用“*”,有的用“#”,有的用“$”,使用时应视具体情况而定。
(4)字段限定检索。数据库中每条记录都包含许多字段,将检索词限定在特定的字段中进行检索就叫做字段检索,即指定检索词出现在记录的某一个字段中。存联机数据库或光盘数据库检索系统中都提供有字段检索功能。字段限制也是调整检索策略的一种重要手段。Dialog检索系统常用的字段限制符如表2-3所示。
表2-3 Dialog检索系统常用的字段限制符
各个检索系统的字段限制符和前缀后缀符号可能各有不同。有的系统没有前缀后缀限定,一律采用前缀或后缀检索。在菜单式检索界面中,通常用户只在下拉菜单中选择某个字段名称,在提问框中输入检索词,即可完成字段限定检索。例如,CNKI期刊全文数据库中的检索字段有主题、篇名、关键词、摘要、作者等。
一般情况下,如果检索时不对检索词进行字段限定,检索系统默认在几个基本字段中检索,主要是题名字段、文摘字段、叙词字段、关键词字段。不同的检索系统由于收录的文献类型不尽相同,则提供的检索字段有可能不同。例如期刊数据库提供的检索字段有刊名、ISSN号等,学位论文数据库提供的检索字段有导师、学位授予单位、论文级别等,会议文献数据库提供的检索字段有会议名称、会议地点、主办单位等。因此检索时,应依信息资源的类型来选择具体的检索字段。
在www检索工具中,网站、网页不像联机数据库或光盘数据库那样每条记录都很规范统一,因此,对网站、网页的检索还没有完备的字段限制系统,但是一些大型网络检索工具借鉴数据库检索的思想,设计了类似于字段检索的特殊功能,如属于主题字段限制的有“Title(题名)”、“Subject(主题)”、“Keywords(关键词)”、“Summary(摘要)”等,属于非主题字段限制的有“Image(图像)”、“Text(文本)”等。此外,作为一种网络检索工具,www检索工具还额外提供了许多新的、带有典型网络检索特征的字段限制类型,如Host(主机)、Domain(域名)、URL(统一资源定位器)、Site(网址)、Newsgroups(新闻组)等。
(5)加权检索。某些检索系统提供一种定量检索技术,就是在检索时赋给每个检索词一个表示其重要程度的数值,即所谓的“权值”,在检索过程中,对含有这些检索词的文献进行加权计算,权值之和在规定的数值(称为阈值)之上者才会作为检索结果输出,权值的大小可以反映出被检出文献的切题程度。加权检索是对布尔检索的改进,可在既保障查全率,又保障查准率的前提下,用一定的权值来表示检索结果的重要性并按相关性输出结果。加权法使检索更具有针对性。
目前加权检索在信息系统中的应用还不很完善,不是所有的系统都提供这种检索技术,即使能提供加权检索的系统,对权的定义、加权方式、权值计算和检索结果的判定也都有不同的技术规范。目前有词加权检索和词频加权检索两种基本的加权检索方法。
①词加权检索是指在构造检索式时,检索者根据对检索需求的理解选定检索词,同时每个检索词被赋予一个权重,表示其在本次检索中的重要程度。检索时先判断检索词在文献记录中是否存在,然后计算存在检索词的记录所包含的检索词的权值之和,通过与预先给定的阈值进行比较,权值之和达到或超过阈值的记录视为命中记录,命中记录的输出按权值总和从大到小排列输出。这种给检索词加权来表达信息需求的方式称为词加权。
例如,以“管理信息系统”为检索课题,给检索词“管理”、“信息”、“系统”分别赋予权值30、30和40。检索时,在关键词文本框中输入“管理/30*信息/30*系统/40”,单击“查询”,则按照所含关键词的权重检出相关记录,按权值递减排列如下:
则 100—30+30+40 管理信息系统;
管 70—30+40 管理系统;
管 70—30+40 信息系统;
信 60—30+30 管理信息。
若规定70为阀值,权值大于70的为命中文献,则只有有关“管理信息系统”、“管理系统”和“信息系统”方面的文献被输出。
②词频加权检索是根据检索词在文档记录中出现的频率来决定检索词的权值,而不由检索者指定检索词的权值,进行信息检索的方法。这种方法消除了人工干预的因素,但这种方式必须建立在全文或文摘型数据库基础上,否则词频加权就没有意义了。
(6)全文检索(Full-text Retrieval)。这里的全文主要是指以文本形式存储的全文,是以文献全文信息作为处理与检索的对象,它不仅能提供文献的外部特征信息,而且能提供文献的篇、章、词组、字等内容信息,能够直接对原文进行检索,从而更加深入到语言细节中去。与其他检索技术相比,全文检索技术的新颖之处在于,它可以使用原文中任何一个有实际意义的词作为检索入口,而且得到的检索结果是源文献而不是信息线索。
全文检索技术通常用于全文数据库和搜索引擎中。在西文数据库中进行全文检索时,使用位置算符会帮助提高查准率。与西文检索系统比较,由于汉语语词切分的问题,中文检索系统的全文检索技术发展较慢,但目前已趋于成熟。
(7)聚类检索。在对文献进行自动标引的基础上,构造文献的形式化表示——文献向量,然后通过一定的聚类方法,计算文献与文献之间的相似度,并把相似度较高的文献集中在一起,形成一个文献类的检索技术。用户利用这些文献类展开检索,一旦检索到聚类中的某一条信息,则可通过这条信息把聚类中的其他文献信息全部检出,从而实现高效率的知识挖掘式的检索。
小资料
“权”在古代的含义为“秤砣”,就是秤上可以滑动以观察质量的那个铁疙瘩。《孟子·梁惠王上》曰“权,然后知轻重”就是这个意思。学校算期末成绩时,期中考试占30%,期末考试占50%,作业占20%,假如某人期中得84分,期末得92分,作业得91分,如果是算数平均,那么就是(84+92+91)/3=89;但是加权处理后就是84×30%+92×50%+91×20%=89.4。
2.新型的网络信息资源检索技术
网络信息资源具有海量、异构、非结构化、动态和分散的特性,传统的计算机信息检索技术已经不能完全满足网络环境下信息检索的需求。借助于信息技术的发展,新的网络信息检索技术,如多媒体检索技术、人工智能检索技术、数据挖掘技术、自动标引和分类技术等,得以应用于网络信息检索中,极大地提高了网络信息检索的效率。
(1)全文检索技术。
全文检索技术是以信息资料的内容,如文字、声音、图像等为主要的处理对象,而不是以其外部特征来实现信息检索的技术。全文检索技术通过提供快捷的数据管理工具和强大的数据查询手段,为人们快速方便地获取文献原文而非文献线索提供了一条有效途径。目前,全文检索技术已经从最初的字符串匹配层面演进到能对超大文本、语音、图像、视频影像等非结构化数据进行综合处理的阶段,成为全文数据库系统和搜索引擎的核心支撑技术。
(2)多媒体信息检索技术。
基于内容的多媒体信息检索技术是对图像、音频、视频等媒体对象进行内容语义的分析和特征的提取,并基于这些特征进行相似性匹配的检索技术,其核心是对多媒体信息内容特征的识别和描述技术,对特征的相似性匹配技术。目前多媒体技术按照检索内容可分为图像检索技术、视频检索技术和音频检索技术3种。
(3)智能信息检索技术。
智能信息检索技术就是采用人工智能计算机技术进行信息检索的技术,它可以模拟人脑的思维方式,分析用户以自然语言表达的检索请求,自动形成检索策略进行智能、快速、高效的信息检索。它包含了自然语言理解技术、智能代理技术、机器学习技术、知识发现技术等。
①自然语言理解技术。
自然语言理解技术是通过对用户输入的自然语言进行句法分析、语义分析等多种处理,形成相应的用规范词形式表达的查询语句,避免了自然语言本身存在的语义模糊和不规范的缺点,使计算机能进行准确的信息传递和处理,提高了信息检索的效率。
②智能代理技术。
智能代理技术具有智能性、代理性、学习性和主动性等特点,可在用户没有具体要求的情况下,根据用户的需要,代理用户进行各种复杂的工作。
(4)数据挖掘技术。
数据挖掘技术是指从大型数据库或数据仓库中提取人们感兴趣的知识,这些知识是潜在有用信息,一般可表示为概念、规则、规律、模式等,用于信息管理、查询优化、决策支持、过程控制等。
(5)自动分类和标引技术。
①自动标引技术。
自动标引技术是指由计算机代理人工完成文本的主题内容分析,并赋予词语标志的技术,可分为抽词标引和赋词标引。抽词标引主要是指直接利用原文本信息中的自然语言直接标引,不加任何处理,是一种自然语言标引;赋词标引是指使用已建词表中的主题词(或叙词)替代文本信息中的关键词来表达文本主题内容概念的标引过程,即使用受控词语进行标引,是一种受控语言标引。
②自动分类技术。
自动分类技术是指利用计算机信息技术对信息按照一定的分类体系或标准进行自动分类和标记,将具有相同或相近特征的信息对象集中在一起,而将不同特征者归于不同的类别中,形成不同的类目,从而实现快速检索的技术。
需要注意的是,不同的计算机信息检索系统采用不同的检索技术来支持检索,有些检索技术是对联机检索系统、光盘检索系统和网络检索系统都支持的,而有的检索技术则是网络信息检索系统所特有的,因此,用户在使用具体的检索系统时,需要对其采用的检索技术情况有所了解,然后才能有针对性地采用相关的技术进行检索。对计算机信息检索技术的掌握是进行计算机信息检索的基础,也是提高检索效率的关键。
小资料
什么是“人工智能”?
人工智能(Artificial Intelligence),英文缩写为AI,最初是在1956 年Dartmouth学会上提出的。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。
3.其他信息检索技术
(1)短语检索(Phrase Search)。
短语检索也称为词组检索或字符串检索。它是将一个词组或短语用双引号(“”)括起来作为一个独立运算单元,进行严格匹配,以提高检索准确度的一种方法。利用短语检索可以使检索结果中出现与双引号(“”)中形式完全相同的短语,因而也有人称之为“精确检索”。几乎所有的搜索引擎都支持短语检索。
(2)括号检索(Parentheses Search)。
用于改变运算的先后次序,括号内的运算优先进行。
(3)自然语言检索(Natural Language Search)。
自然语言检索是一种直接采用自然语言中的字、词甚至整个句子作为提问式进行检索的方法。检索工具在受理检索提问后,利用禁用词表剔除检索提问中没有实际意义的词,如介词、副词、常用请求词(please,would you may等),以及表达检索指令的动词(find,lookup,search等),再将其余的词自动转换成关键词进行检索。这种检索工具允许用户通过问句形式输入自然语言提问,一般是以什么(What)、什么时候(When)、什么地方(Where)、怎么样(How)、谁(Who)和为什么(Why)等开头的问句。例如,用户可以输入“What is the weather in London?”这样的自然语言进行检索。检索工具根据一定的算法在后台对问句进行自动分解,并允许用户对提问进行修改,最后将检索结果输出显示。这样就使用户从自己构造检索表达式的复杂工作中解脱出来。
(4)概念检索(Concept Search)。
概念检索又称主题检索或知识检索,是指使用某一检索提问词进行检索时,能同时对该词的同义词、近义词、广义词、狭义词进行检索。用户输入一个关键词后,概念检索不仅能够检索出包含有这个关键词的结果,还能检索出包含与这个关键词意义相近的其他词的结果。例如,当用户使用“计算机”检索时,检索结果不仅包括含“计算机”的内容,还包括含“电脑”等的内容。概念检索可以起到扩大检索,避免漏检的作用。
(5)多语种检索与检索结果的翻译功能。
很多网络检索工具提供多语种检索或检索结果的翻译功能。多语种检索是指提供多语种的检索环境供检索者选择,检索系统按指定的语种进行检索并输出检索结果。例如Google是一种多语言检索工具,界面可用语言达上百种,其检索结果也支持英语与汉语、法语、德语等之间的互译。
(6)区分大小写检索。
这一检索技术主要针对检索词中含有人名、地名等专有名词的情况。在区分大小写的情况下,大写检索词能当成专有名词看待;而在不区分大小写的情况下,则无法区分该检索词是指专有名词还是普通词,从而在一定程度上影响了检索结果的准确性。网络检索工具中有些检索系统区分大小写,有些不区分大小写,如AltaVista,Infoseek区分大小写;雅虎(yahoo)不区分大小写。
(7)一站式检索(One Step)。
一站式检索是指用户通过一个检索工具满足自己所有的信息检索需求。一站式检索服务是人性化服务的重要体现,它将大量节约用户的检索时间。例如,中国教育图书进出口公司开发的Open Access一站式检索服务平台(http://www.socolar.com)。其他越来越多的检索服务提供商将向一站式检索方向发展。
(8)相似检索(Similar Search)。
用户在得出某一检索结果后,还需要得到与该结果类似的更多的信息。相似检索除了以人工方式进行,即从已经检索到的结果中选择与检索提问相关的词作为下一轮检索的检索词外,有些网络检索工具也提供相似检索功能,如在Excite中单击“More like This”可以进行相似检索,Google中单击“Similar Pages”,可以进行相似检索。
(9)限定检索(Limit Search)。
可以减少不必要的输出,提高查准率。一般包括时间的限定,地域、语种的限定,网域的限定及文档形式的限定,如Google、百度都支持这一检索。
(10)检索提问的修改与限制。
一方面,网络检索工具对用户输入的检索提问进行分析并提供若干相关案例供用户选择;另一方面,提供在检索结果的基础上进行二次检索,即把新一轮检索限制在已经检索到的结果范围之内。这种方法有利于提高检索速度和检索的精确度,如Google、百度在结果页都提供相关检索和二次检索。
(11)检索结果排序。
很多网络检索工具在检索过程中计算相关度,并按相关度从高到低的顺序排列检索结果。相关度一般依据关键词出现的频率,关键词出现在网页的位置,网页被链接的程度标准来确定。检索结果按相关度排列有助于用户快速获得有用信息,从而提高检索效率,如Google、百度都有此功能。
(12)过滤检索(Filtered Search)。
网络信息良莠不齐,避免某些信息的不良影响,一方面要靠用户增强自身免疫力,另一方面应提高网络检索工具的甄别能力,自动识别并排除那些不健康的网页。过滤检索可以在检索中自动将一些网站信息过滤掉,如一些内容不健康的黄色网站信息,影响国家安全的政治反动网站信息等,这种检索服务技术可以避免未成年人上网时受到不良影响。
小资料
什么是Dialog?
Dialog系统是目前世界上最大的国际联机情报检索系统,覆盖各行业的900多个数据库,信息总量约15TB,共有14亿条记录。在Dialog系统资源中,各种类型的商业性数据库多达400多个,占有举足轻重的地位。存储的文献型和非文献型记录占世界各检索系统数据库文献总量的一半以上。Dialog系统在全球6个大洲100多个国家有25000位客户,是全球最大的专业信息供应商。