公共信息资源管理
上QQ阅读APP看书,第一时间看更新

第三章 公共信息资源组织

信息组织也称信息整序,是利用一定的规则、方法和技术对信息的外部特征和内容特征进行揭示和描述,并按给定的参数和序列公式排列,使信息从无序集合转换为有序集合的过程。公共信息资源组织是公共信息资源管理的重要组成部分,是连接公共信息资源形成与服务的关键环节。实现公共信息资源的组织,有利于资源的存储、检索、共享和利用。

目前,学术界对传统信息资源组织的理论研究已进入了成熟阶段,因此,本章将在传统信息资源组织的理论基础上,着重探讨网络公共信息资源的组织方法与模式。

第一节 公共信息资源的描述

公共信息资源组织首先要实现公共信息的规范控制,这就要求对公共信息资源的形式特征进行描述。对公共信息资源的描述是公共信息资源组织的首要内容,公共信息资源组织的深度和质量取决于对公共信息资源描述的深度和水平,为此,人们创造了多种方法、技术、规则和标准对信息进行描述。

信息描述(Information Description),是根据信息组织和检索的需要,依据一定的规则和标准,对信息资源的主体内容、形式特征、物质形态等进行分析、选择、记录的活动。信息描述从信息组织的加工层次上看是一种初级组织形式,它主要是侧重于信息的外在特征的描述,对部分内容特征的描述也主要是对部分显性内容特征即信息载体上标注的内容特征的描述,并且不放在主要地位。[1]

一 传统公共信息资源的描述著录

(一)著录的概念

公共信息资源著录,是指依据一定的规则,对公共信息资源的内容特征、形式特征,以及物质形态进行分析、选择和记录的过程。公共信息资源的内容特征,是公共信息资源所载的主题内容;公共信息资源的形式特征,是公共信息资源生成的时间、数量、创建者、语种、载体等相关记载;公共信息资源的物质形态,是公共信息资源载体的形态。公共信息资源著录是客观描述信息和文献的过程,其结果为款目。

所谓款目,是指依据一定的方法和规则,对文献的内容特征、形式特征和物质形态所做出的客观描述。将款目按照一定的规则有序地排列起来便形成了目录。款目是一种文献的缩影,而目录则是一批文献的缩影。

(二)著录项目

著录工作首要确定公共信息资源的著录项目。所谓著录项目,是指用于揭示文献内容和形式特征的记录事项。不同类型文献和不同形式目录的著录项目不尽相同。公共信息资源既包括由专注、连续出版物等具有出版物特征的文献,例如政府出版物等,也包括缩微复制品、计算机文档、电子资料等各种载体的文献资源,因此,公共信息资源著录工作中最核心的内容就是确定统一、规范、科学的著录规则指南。目前,最具代表性的著录准则是国际图书馆协会联合会(IFLA)制定的ISBD(G)《国际标准数目著录(总则)》,我国最常用的著录准则是《文献著录总则》。

1.ISBD(G)规定的八大著录项目

(1)题名与责任说明项(Title and Statement of Responsibility):题名与说明项包括正题名、一般文献类型标识、并列题名、其他题名信息和责任说明等内容。

(2)版本项(Edition Area):版本项包括版本说明、并列版本说明、与版本有关的责任说明、附加版本说明、与附加版本说明有关的责任说明等内容。

(3)资料(或出版物类型)专用项(Material or Type of Publication Specific Details Area):该项目是专门为少数类型文献信息特征而设置的特别描述,如连续出版物中使用的卷、期、年月等;地图资料中使用的比例尺和投影等。

(4)出版发行等项(Publication,Distribution,etc.Area):该项目包括出版发行地或发行地、出版者或发行者的名称、出版日期或发行日期、制作地、制作者及制作日期等。

(5)载体形态项(Physical Description Area):载体形态项包括特定资料标识与文献资料数量、其他形态细节、文献尺寸和附件等内容。

(6)丛编项(Series Area):丛编项包括丛编或附属丛编正题名、并列题名、其他题名信息、有关责任说明、国际连续出版物号及丛编编号。

(7)附注项(Note Area):附注项记录那些没有在其他描述项出现但又认为是重要的信息,任何可描述信息都可以在本部分加以说明。它具有限定和补充描述项目及处理出版物任何问题的作用。

(8)标准编号与获得方式项(Standard Number and Terms of Availability Area):该项包括国际文献标准编号、识别题名、获得方式、限定说明等内容。

2.《文献著录总则》的著录项目与著录标识

《文献著录总则》的著录项目与著录标识(见表3—1)。

表3—1 《文献著录总则》的著录项目与著录标识

续表

二 网络公共信息资源的描述

20世纪90年代以来,随着信息技术和全球互联网的飞速发展,网络信息资源积累量激增。如何对网络公共信息资源进行科学的组织、管理和提供有效的服务,解决“信息爆炸”带给用户的信息利用障碍,是公共信息资源管理领域亟待解决的问题。与传统文献公共信息资源一样,要对网络公共信息资源进行有效组织,就首先要对其进行描述。随着计算机和通信技术的发展,出现了元数据、机器可读目录(MARC)、RDF、XML、本体等新兴技术,推动了网络公共信息资源的有效描述。

(一)元数据

元数据(Metadata)是关于数据的有结构的数据描述,或者说是定义和描述其他数据的数据。它规定了数字化信息的组成,其基本功能是规范数据组织,便于检索和传递。从本质上说,元数据是一种数据结构标准。公共信息资源的类型是多种多样的,资源的来源有多种途径,服务的对象也不尽相同,因此,存在各种不同类型的元数据是必然的。根据其功能,元数据被划分为三种基本类型:知识描述型元数据、结构型元数据、存取控制型元数据。

目前,国际上存在很多种元数据格式。例如,美国联邦地理数据委员会的地理元数据项目(FGDC)、编码文档描述(EAD)、教育管理系统(IMS)、全球信息定位服务(GILS),以及都柏林核心元数据(DC)等。其中影响最大的元数据格式为都柏林核心元数据。DC是通过举办一系列研讨会的形式发展起来的,第一次研讨会于1995年3月在美国俄亥俄州的都柏林举办。DC包含了三个大类十五个要素,第一大类为描述资源内容的要素,第二大类为描述知识产权的要素,第三大类为描述资源外部属性的要素(见表3—2)。

表3—2 DC核心元素

续表

DC的15个元素全面地描述了网络信息资源的内容特征和外部特征,由于它具有简洁和通用的优点,因此得到了广泛的关注。DC经过10多年的发展,得到了不断完善,为编目人员、网络信息创编者提供了一个简单、实用又有效的信息描述工具。

(二)MARC

MARC(Machine Readable Catalogue)是机器可读目录的简称,是一种以代码形式和特定结构记录在计算机存储载体上,可由计算机自动控制、处理和编辑输出的目录。其主要特点是:一次输入,可输出多种载体的款目,可实现合作编目和联机检索。MARC是美国国会图书馆提出的著名的机读目录发展计划,于1966年首次推出,1969年开始发行MARCII格式的图书编目数据磁带。

不同国家的国情不一样,许多国家根据各自情况创建了自己的机读目录系统,如澳大利亚(ANBIMARC)、加拿大(CANMARC)、法国(MONOCLE)、印度(NISSAT)、日本(Japan MARC)、英国(UKMARC)、美国(USMARC)、中国(CNMARC)等国家的机读目录。为了进一步协调、实现机读目录的国际交换,国际图书馆协会联合会于1977年制定了《国际机读目录格式》(UNIMARC),现在许多国家都采用UNIMARC进行文献编目。联合国教科文组织(UNESCO)也于1974年组织制定了国际情报界书目信息交换格式《UNISIST机读书目著录参考手册》,1983年又组织制定了公共交换格式(CCF),以便国际图书情报界各系统之间交换书目数据。

为了有效地描述、组织网络信息资源,美国国会图书馆和OCLC不断对MARC进行多次修订,主要有以下几个方面:[2]

1.扩大网络信息资源的覆盖范围

最初USMARC将网络信息资源的范围界定得很狭窄,只包括计算机文件与软件等。随着网络技术的发展,MARC也不断拓展其所描述的网络信息资源的范围。现在其网络信息资源不仅包括电子资料资源(如计算机文件、软件、数据库等),还包括线上系统与服务资源(如FTP文件传输地点、BBS、远程登录地点等)。

2.增加、修改008字段第26位数据元的代码

①增加008字段第26位数据元的代码,如增加了“字型”(font)、“游戏”(game)、“书目资料”(bibliographic data)、“声音”(sound)、“网上系统及服务”(online system or service)等几种代码,使MARC对网络信息资源类型的描述更具体、更准确。②更改了008字段第26位数据元代码所代表的设定值。以“text”取代“document”,以“graphic”取代“representation”,以“numeric”取代“numeric data”。

3.修改5XX字段

为准确、详细地记录网络信息资源的格式内容,采用5XX字段记录网络信息的格式:用516字段反映计算机文件类型或数据附注,用500、520字段反映一般性附注和摘要附注,用538字段反映系统细节和存取附注等。

4.增设856字段

采用856字段(电子资源地位与检索)著录网络信息资源的存取方式及其他必要信息,主要用来存储URL地址,其内容包括存取方式(如电子邮件、FTP、http等)、主机名称、路径、文档名称或其他可以协助用户通过网络获取电子信息的方式。

(三)XML

在语义网环境下,可扩展标记语言(Extensible Markup Language,XML)及其技术体系被认为是网络信息资源内容与结构组织的技术基础。XML是基于标准通用标记语言(Standard Generalized Markup Language,SGML)的一种文本形式标识语言,它提供描述结构化资源的格式。XML由模式(Schema)、可扩展样式语言(Extensible Style Language,XSL)、可扩展链接语言(XML Linking Language,XLL)3部分组成。Schema是用于描述和规范XML文档的逻辑结构的一种语言,定义了XML文件中的元素、元素的属性及元素与元素属性之间的关系,可以帮助XML的分析程序检查XML文件标记的合法性。XSL是一种用于以可读格式呈现XML数据的语言。XSL包含了XSLT用于转换XML文档的语言和XPath用于在XML文档中导航的语言两个部分。XML的超链接机制被制定为XML的链接语言XLL,它极大地扩展了目前网络上已有的链接方式。

XML以其良好的数据存储格式、可扩展性、高度结构化、便于网络传输等优势在许多领域得到应用。XML用于网络信息资源的描述,不仅能满足不断增长的网络应用要求,而且还能够确保与网络进行交互时,具有良好的可靠性与互操作性。XML的优点有:[3]

(1)标签的可扩展性。XML突破了HTML固定标记集合的约束,允许开发人员定义各种标记来描述文档中的数据元素,从而获得更大的灵活性和更强的功能。

(2)输出格式的灵活性。XML可以做到内容和格式分离,XML被用来描述内容,XSL用来提供适合用户的格式表示。分离使得文档的输出格式具有最大限度的灵活性。

(3)数据交换的简便性。由于XML是非专有的、普遍使用的数据格式,并易于阅读和编写,人们可以使用任何一种理解XML的工具来操作数据,XML能够运行在任何平台和操作系统上,因此适合作为不同应用之间交换数据的标准。

(4)信息检索的准确性。XML的使用者不仅可以定义文档中元素的词汇表,还可以指定元素间的关系,以将文件的元素进行层次化管理,形成以逻辑内容为基础的标记结构。这种结构化的、良好的内容格式,极大地提高了Web信息检索的准确度。

(5)较强的链接能力。XML链接语言分成两部分:XLink(定义文档间的链接)和Xpointer(定义文档的各部分如何寻址)。XLink不但可以实现HTML的超文本链接,还支持多向链接。XML不仅保留了SGML的可扩展功能,而且具有简单性、互操作性和开放性等特点。由于XML的这一系列明显优点,使得XML成为网络信息资源组织与检索的技术基础。

(四)RDF

随着Internet的发展,HTML编写的Web页面缺乏语义信息等过于简单的弱点也越来越突出。而XML虽然比HTML进一步,它注重描述数据的内容和结构,可以将数据和显示分离,但XML只是在语法上统一了数据交换的格式,并没有提供充分的基于语义的表达方式,这显然不能满足分布式的、异构的、动态的、开放的Web信息平台的智能处理要求。在此背景下,W3C在1997年发布了资源描述框架(Resource Description on Framework,RDF)。

RDF的核心定义比较简单,它的基础是一个能够表达属性及属性值的模型,一般被称为RDF数据模型(Data Model)。RDF的基本数据模型如图3—1所示。[4]

图3—1 RDF的基本数据模型

从图中可以看出,任何一个可被标识的“资源”(resource)都可以被一些可选择的“属性”(properties)描述,每一个属性的描述都有一个“值”(value)。在这里,资源指所描述的信息资源或数据对象,如一个网页、一本书、一种计算机软件等。属性指信息资源所具有的一些特性,如题名、作者等。属性是可以选择的,可以是元数据制作者自己规定的某些特性,也可以是某个既定的信息资源描述格式中的某个项目。属性值指的是属性的具体内容。

RDF具有以下特点:[5]①简单性:RDF使用简单的资源属性值三元组,所以很容易控制,即使是数量很大的时候。②易扩展性:在使用RDF描述资源的时候,词汇集和资源描述是分开的,所以易于扩展。③开放性:RDF允许任何人定义自己的词汇集,并可以无缝地使用多种词汇集来描述资源,以根据需要来使用,使其各尽所能。④易交换性:RDF使用XML语法,可以很容易地在网上实现数据交换。⑤易综合性:在RDF中资源的属性是资源,属性值也可以是资源,关于资源的陈述也可以是资源,都可以用RDF来描述。这样就可以很容易地将多个描述综合,以达到发现知识的目的。

由于RDF是以一种建模的方式来描述数据语义的,这使得RDF可以不受具体语法表示的限制,但RDF仍然需要一种合适的语法格式来实现其在Web上的应用。由于XML已经成为被广泛支持的Web数据表示标准,便于应用的读取,因此将RDF序列化为XML表示可以使RDF获得更好的应用可处理特性,并使得RDF数据可以像XML数据一样容易使用、传输和存储。RDF在可以帮助解析器在阅读XML的同时,获得XML所要表达的主题和对象,并可以根据它们的关系进行推理,从而做出基于语义的判断。由于RDF本身用XML语言标记,可以在任何基于XML的系统平台上方便地解析,从而提供了统一的和机器可读的元数据标记和交换机制,使检索过程由原来的关键词组匹配进化为内容匹配,克服了形式匹配的种种缺陷。XML与RDF的结合,解决了信息建立与信息描述的开放机制,有利于资源共享,尤其是为语义网的发展提供了技术支持。

(五)本体

本体(ontology)是共享概念模型的明确的形式化规范说明。本体通过对概念的严格定义和概念之间的关系来确定概念精确含义,表示共同认可的、共享的知识。本体具有良好的概念层次结构和对逻辑推理的支持。在被信息科学引入后,本体越来越多地被作为一种帮助机器智能理解语词内涵,实现推理,从而实现语义标引和检索、提高网络信息资源组织效率的有效工具。本体提供了某个专业学科领域的概念集以及概念之间的关系,是领域知识规范的抽象和描述。利用本体来描述网络信息资源的优点有:

(1)直接体现语义。基于本体的信息资源组织不仅方便计算机的理解和处理,更好地满足全新的信息环境和检索的需要,而且还可以在此基础上提供进一步的智能服务。

(2)分布式共享。本体是关于领域知识的共同理解和描述,用于共享和重组。但对领域知识的描述不一定要通过一个集中管理的本体来完成,它可以由分散在网络上的多个本体来完成。分散在网络上的各个本体形成一个分布式网络,这种分布式的信息组织方式,不仅可以减少信息组织建立、维护与管理的成本,而且还可以促进网络知识的共享和交流。

(3)多维、网状的信息组织方式。本体采用了容易为计算机所接受和处理的知识表现和信息组织方式,概念及其之间的关系形成了一个多维的语义网络。这种多维网、网状的信息组织方式,不仅有利于网络上各种不同类型、不同结构的信息资源的集中与整合,而且有利于它们之间关系的描述与揭示。

(4)对推理的支持。本体通常需要以某种逻辑的语言来表达,从而完成对类、属性和关系的良好表达。一些本体工具可以根据此进行自动推理并为一些智能应用提供高级服务。

第二节 公共信息资源组织方法

一 信息资源组织的基本方法

长期以来,信息资源组织方法是以分类法和主题法为主要形式。分类组织法既是一种管理思想与方法,也是对知识分类体系的反映,有着悠久的发展历史;主题组织法是为了适应文献的计算机管理需要而逐步受到重视的一种信息组织方法。分类组织法是语法信息组织和语义信息组织的综合,从学科角度集约信息,便于族性检索;主题组织法是以语法信息组织为主、语义信息为辅的一种综合信息组织体例,其词族索引和范畴索引展现了主题词之间的等级关系和学科关系,属于语义信息组织,而附表和英汉对照索引则体现了语法信息的关系。因此,主题组织法是建立在自然语言基础之上的另一种形式的语义信息与语法信息组织的综合。

(一)分类法

所谓分类法,是指依据事物的属性或特征进行区分和聚类,并将区分的结果按照一定的次序予以组织的活动。信息资源分类的目的在于使用户更容易找到资源,它将相互关联的资源集合形成一个等级体系,通过构建等级结构,分类法使用户可以找到一系列相关的信息。目前,分类法已经发展成熟,各国的分类学家创立了各种各样的分类法,其中最具影响力的有:美国的《杜威十进制分类法》(DDC)和《国会图书馆分类法》(LCC)、欧洲的《国际十进制分类法》(UDC)和《国际专利分类法》(IPC)、苏联的《图书馆数目分类法》(BBK)等。我国目前应用最广的为《中国图书馆图书分类法》,在台湾较通用的是刘国钧编的《中国图书分类法》[6]

分类法包括两大类型:体系分类法和组配分类法。体系分类法主要应用概念划分与概括的方法,组配分类法主要应用概念分析与综合的方法。

1.体系分类法

体系分类法主要是利用逻辑分类的原理,依据文献内容的学科、专业性质及其他特征,对文献信息进行系统化组织的一种方法。体系分类法是由成千上万个类目构成的,所以,类目的划分、类目的排列、类目名称及含义、类目之间(学科之间)相互关系的处理,是体系分类法技术原理的重要内容。

体系分类法一般由编制说明、分类表、索引和使用说明4部分组成(见图3—2):

图3—2 体系分类法结构图

(1)分类表。分类表是分类法的主体,是根据类目之间的关系,按照一定的原则组织起来的类目一览表。从表现形式上看,分类表一般由大纲、简表、主表、辅助表4部分组成。

(2)编制说明。编制说明一般是对分类表的编制目的和使用范围、编制原则、体系结构、辅助表、标记符号、注释等予以介绍和解释,以使人们对分类表有一个基本的、全面的了解。编制说明一般置于分类表之前。

(3)使用说明。使用说明是分类表的使用指南,用以指引人们正确使用分类表,一般会对分类表的分类体系、标记符号、分类标引的方法与规则、书次号的编制方法等予以详细说明。

(4)索引。分类法索引,又称类目索引,是一种按类名及类目相关概念名称字顺查找相应类号的分类表辅助工具。索引方便使用者按主题概念名称字顺查找类号,而且将分类表中被分散的同一事物不同方面的类目集中,使分类法在一定程度上具有主题法的性能。

2.组配分类法

组配分类法的构成基于概念的可分析性和可综合性,即将一个复杂概念分析为若干个简单概念,若干简单概念综合为一个复杂概念。因此,一个复杂的主题概念可以用若干个简单概念标识的组配来表达。

分面是组配法的基本特征。所谓“面”是指可以描述一类事物某一方面属性或问题的一组简单概念或类目。若使用某种属性作为分类标准,对一类事物进行划分,就可以产生一组类目,这组类目就构成一个面。

组配分类法可以分为分面组配分类法、组配—体系分类法、体系—组配分类法3种类型。各类型的结构体系如表3—3所示。

表3—3 组配分类法的构成

分面类表是分面组配分类表和组配—体系分类表的细目表。一部组配分类表包含了多个分面类表。分面类表类似体系分类表中的辅助表,也可分为各类通用的和某类专用的两种类型。分面公式指示出某个具体的分面组配次序和分析标引规则,一般置于各类分面类表之前。

组配—体系分类法以分面组配为主,如阮冈纳赞的《冒号分类法》(CC)。体系—组配分类表的分类体系详表由类目、类号和注释组成,其结构原理和形式与体系分类表详表基本相同。体系—组配分类法以等级体系为主,接近于体系分类法,如《国际十进分类法》(UDC)。这两种分类法都是先按学科体系分类,然后再进行分面组配。

3.网络信息分类法

传统分类法基本上是根据文献组织和检索的需要,按照传统环境的特点编制的。网络环境的出现以及计算机技术的发展,极大地改变了分类法的处理对象和手段,网络分类法就是在这样一个环境下发展起来的一种新型分类工具。[7]网络分类法是一种按照网络信息资源内容的等级和关系来组织和揭示信息资源的方法,通过网络分类法建立起来的网络分类目录,提供了网络信息资源的分类浏览和导航。国内外主要的综合门户网站和综合性搜索引擎都提供了分类导航的功能,这些网站一般采取自编的分类系统来组织网络上的信息资源,如表3—4所示。

表3—4 国内外主要门户网站和搜索引擎分类体系大纲

从以上网站和搜索引擎的分类体系可以看出,网络分类体系不同于传统文献分类法按学科划分的特点,它是将网络信息资源内容的特征、网民的信息需求特征以及信息载体特征交叉混合构建而成,其体系虽缺乏严密性,但在一定程度上具有实用性和易用性。

(二)主题法

所谓主题法,即主题标引法,是指直接以表示信息资源主题的语词做标识,提供字顺检索途径,并主要采用参照系统揭示词间关系的标引和检索信息的方法。主题标引是对文献的内容主题及其他有检索意义的特征进行分析、识别、提炼和归纳,然后用某种检索语言标写出来,作为信息存储与检索的依据的信息处理过程。主题标引是信息资源整序、优化的一种重要方法,是信息分析加工过程中的重要环节。常见的主题标引方法有标题法、元词法、叙词法、关键词法等,如图3—3所示。

图3—3 主题法系统信息资源组织方法的分类

1.标题法

标题法是用规范化了的自然语言(标题),即经过标准化处理的名词术语作为标识,按照字顺排列,来直接标引和检索文献所论及或涉及的事物主题的方法。标题法是最早出现的主题法。标题法的原理可以归纳为4点:

(1)按主题(文献所论及或涉及的事物)集中文献;

(2)用经过规范化的术语直接标引文献主题;

(3)用参照系统间接显示主题之间的相互关系;

(4)用字顺序列直接提供主题检索途径。

任何一个标题都是一个完整的标识,可以独立地标引一个文献的主题。选择标题词时,必须具备一定的检索意义,具备适当的专指度,能够直接、准确地表达文献所论及的事物,同时,标题词的选择还需具备通用性和准确性,要选择那些标题词与表达概念吻合的词,并且这些词能被普遍接受。尤其值得一提的是,一个概念只能用一个标题表达,一个标题只能够有一个字面形式,标题词需具备唯一性。

2.单元词法

单元词法是用规范了的单元词来标识文献主题的方法。单元词的基本原理是:任何一个复合概念都可以分解为若干个单元概念。因此,标题法的词组标题、倒置标题、带子标题的多级标题等所表达的任何一个复杂概念(文献主题),都可以用一些单词——单元词的组合或组配来表达。

单元词是指最小、最基本的词汇单位,是能够用来描述文献所论及或涉及的事物——主题的那些单词。若干个单元词的相互组合或组配,才能构成一个专指标识,精确地表达文献主题或检索课题。同时,单元词法为后组式标识,因此摆脱了标题法中每个标题只能选择一种标题形式作为正式标题的局限;不存在词序问题;组成标题的每个单元词都是排检词,从而提供了更多的检索途径;利用对单元词的增减,可以自由地扩大、缩小或改变检索范围等。

3.叙词法

叙词法是在单元词法等多种检索语言的基础上,以叙词作为标识符号,标引和检索文献主题的方法。叙词法吸收了多种信息检索语言的原理和方法,包括:

(1)保留单元词法单词组配的基本原理;

(2)采用组配分类法的概念组配替代单元词法的字面组配,以及适当采用标题法的预先组配方法,以克服某些词拆分后“失真”的缺点;

(3)采用标题法对语词进行严格规范化的方法,以保证语词与概念的一一对应;

(4)采用并完善标题法的参照系统,采用体系分类法的基本原理编制叙词分类索引和等级索引,采用与关键词法类似的方法编制叙词轮排索引,多方面显示叙词间的相互关系。

就叙词法的总体结构来说,叙词表一般是由一个主表和若干个辅表构成的。主表是叙词表的主体,包括的内容最全,对每个叙词的著录也比较完备,所以可以独立存在。辅表是为方便叙词表使用而编制的各种辅助索引,包括的内容不全,著录也比较简略,所以不能独立存在。

4.关键词法

关键词法就是将文献原来所用的、能描述其主题概念的那些具有关键性的词抽出,不加规范或只做极少量的规范化处理,按字顺排列,以提供检索途径的方法。

关键词法是适应目录索引编制过程自动化的需要而产生的,其原理如下:直接抽取文献中和题名中的语词作为标识,对作为标识的词不加规范或只做极少量规范处理;不编制受控词表来进行词的控制,不显示词间的关系,只是编制非关键词表来控制抽词。非关键词表是将那些没有实际意义或无检索意义的词,如冠词、介词、连词、感叹词等预先编制成表,以便计算机自动抽词或人工抽词时,排除这些非关键词,以有效地抽出关键词。

关键词是指那些出现在文献的标题及摘要、正文中、对表征文献主题内容具有实质意义的语词,即对揭示和描述文献主题内容来说是重要的、关键的词语。

5.国内外主题词表介绍

国内外编制和使用的主题此表很多,其中影响力较大、结构典型的主题词表如表3—5所示。其中,LCSH是国外使用最广的标题表;MeSH是国外使用最广的专业叙词表;《汉语主题词表》是我国第一部大型综合性叙词表;《中国分类主题词表》是在《中图法》类目与《汉语主题词表》叙词对应的基础上编制的分类主题词表。

表3—5 国内外主要主题词表

(1)《美国国会标题表》。

《美国国会标题表》(LCSH)是美国国会图书馆在编目实践的基础上编制起来的标题表。该表首次出版于1909—1914年间,名为《美国国会图书馆字典式目录用标题表》,1975年改为现名。LCSH是目前世界上使用最广泛的主题词表,世界各国图书馆在对英文图书编目时,基本上都使用该表或参考其编目数据进行主题标引,[8]该表在检索语言的发展历史上及当今图书馆主题编目工作中占有重要地位。

LCSH由主表、副表和使用说明三部分组成,其中主表是标题表的主体。LCSH的主表是由众多的标题款目和非标题款目按字顺排列的一览表,其款目包括:①标题与非标题。标题包括主标题和副标题,主标题是词表中进行主题标引的依据,副标题起指引查找正式标题的作用。②分类号。约有近40%的标题后附有相应的国会分类法的分类号,这些分类号通常表示与主题词一致的最基本方面。③注释。主要用于对标题进行补充说明,规范使用方法。④参照项。用于叙词法相似的参照项目及符号,明确区分等级关系和相关关系,使词间关系更加清楚,同时使用SA(See Also)作为说明参照,用于揭示一组相关标题或指示查找相关标题的方法。

(2)《医学主题词表》。

《医学主题词表》(MeSH)是由美国国立医学图书馆编制的专业叙词表,是针对生物医学数据所整理出的主题词汇表。2008版MeSH共收入24767个叙词,是美国国家医学图书馆用以标引、编目和检索生物医学和健康相关的文献的控制词集,也是各国医学领域使用最广泛的专业词表。[9]

MeSH由两大部分构成。一部分是按主题词字顺排列的字顺表,另一部分是树状结构表,又称范畴表。字顺表将全部主题词按字母顺序排列,每个主题词下都附有树状结构号,有些主题词下还有历史注释和参照系统。树状结构表将字顺表中的主题词按照每个词的词义范畴和学科属性,分别归入16个大类之中,大类又进一步细分多达9级。每一级类目用一组号码标明,级与级之间用“.”号隔开。主题词上、下级之间采用逐级缩进格式表现主题之间的隶属关系,每个主题词都有一个或两个以上的树状结构号,该号是联系字顺表和树状结构表的纽带。

(3)《汉语主题词表》。

《汉语主题词表》是我国第一部大型的综合性叙词表,由中国科技信息研究所和北京图书馆负责主持,1975年开始编制,1980年正式出版。分为社会科学、自然科学和附表3卷,共10个分册,全表收录主题词108568个。其中正式主题词91158个,非正式主题词17410个,词族数3707个,一级范畴数58个,二级674个,三级1080个。

《汉语主题词表》是一部显示主题词与词间语义关系的规范化动态性的检索语言词表。该词表作为一部大型综合性科技检索工具,收词包括自然科学、医学、农业、工程技术等各领域,适合对各种科技书刊、研究报告、学术论文、会议录、专利、标准以及产品样本等图书情报资料进行叙词标引与检索。

(4)《中国分类主题词表》。

《中国分类主题词表》是在《中图法》编委会的主持下,从1987年开始由全国40个图书情报单位共同参加编制,1994年出版的一部大型文献标引工具书。它是在《中图法》第三版和《汉语主题词表》的基础上,为实现分类主题一体化标引,为机助标引、自动标引提供条件,降低标引难度,提高检索效率和标引工作效率,编制而成的分类检索语言和主题检索语言兼容互换的工具。

《中分表》共分为2卷6册,包括《分类号—主题词对应表》和《主题词—分类号对应表》。前者的结构是以《中图法》的类目体系为基础,把《汉表》主题词及主题词组配形式,对应于各级类目之下编制而成的、从分类角度进行分类主题一体化标引的工具,其款目的构成要素包括分类号、类名、类目注释及对应的主题词、主题词串、对应参见和注释;后者是以主题词的字顺排列为基础,把分类号对应于各个主题词或主题词串之下编制而成的,是从主题词角度查找主题词和分类号,进行分类主题一体化标引的工具,其款目的构成要素包括主题词及参照项或主题词串与对应的分类号、各种符号以及对应注释等。

二 网络公共信息资源的组织模式

(一)网络公共信息资源的微观组织

1.文件

文件是一种常用的信息资源组织方式,文件组织的优点是简单方便,除了文本信息以外,还适应于存储程序、图形、图像、音频、视频等非结构化信息或多媒体信息。采用文件方式组织的网络信息资源,在传输、存储和使用过程中有很多格式,如文本文件的.doc和.pdf格式、图形文件的.jpg格式、音频文件的.mp3格式,以及视频文件的.flv格式等。因为计算机自身有一套成熟的文件处理、查询及传输技术,因此以文件方式来管理和组织网络公共信息资源简单方便。例如Internet提供了FTP协议来帮助用户利用以文件形式保存和组织的网络信息资源。基于以上种种优点,以文件形式来管理网络公共信息资源得到了广泛的应用。

2.超文本/超媒体

超文本既是一种新型的文本信息组织方式,也是一种有别于传统检索技术的新型信息获取方式。这种信息组织方式将网络上相关的文本信息存储在许多节点上,节点间以链路相连,用链将这些节点连成一个网状结构。超文本方式使用户可以从任意一个节点开始,根据网络中信息间的联系,从不同角度浏览和查询信息。

随着计算机技术的不断发展,图像、声音、视频、动画等多媒体信息逐步进入超文本系统中,使得超文本进一步发展为超媒体。超媒体信息资源组织方法是在超文本和多媒体技术相结合的基础上产生的信息组织方法。超媒体组织信息的优势表现在信息的非线性编排、信息表达形式的多样性、伸缩性强互相链接的文件可多可少,可随时增删、能体现文献间的引用与被引用关系。目前Internet上绝大部分信息资源均采用这种组织方式,最流行的WWW服务就是以超媒体的形式将海量的网络信息资源组织起来的。

3.数据库

数据库(Database)是按照数据结构来组织、存储和管理数据的仓库,它将要处理的数据经合理分类和规范化处理之后,以记录的形式存储在计算机中,用户通过关键词及组配查询,就可以找到所需要的信息。数据库是对大量的规范化数据进行管理的技术,它利用严谨的数据模型对信息进行规范化处理,对查询进行优化,从而提高信息管理的效率。由于数据库的最小存取单位是字段,用户可以根据需要灵活地改变查询结果集的大小,从而可大大降低网络数据传输的负载。以数据库技术为基础,还可以帮助建立网络信息系统来有效地组织网络公共信息资源。

数据库可以分为关系数据库、非结构化数据库、数据仓库3种类型,其各自的信息组织特点如下所述。[10]

(1)关系数据库。

关系数据库通过引入数学领域的关系模型、关系代数和关系演算,以关系概念为基础发展起来,在处理文本数据、管理事务等方面奠定了自己的优势。在信息存储方面,关系数据库以二位表的方式管理数据,所以对用户而言,关系数据库就是二维表,一个对象即为一行,而其属性就一列,数据组织形式直观明了。但是关系数据库对于数据量过大的检索效果不理想,同时由于采用整个数据项的内容为单位的索引方式,不能满足一些更深层次的索引要求,所以很难处理网络中的非结构数据(尤其是多媒体数据)。

(2)非结构化数据库。

非结构化数据库中的资源可以同时包含结构化的和非结构化的信息。与关系数据库相比,非结构化数据库最大的区别在于突破了关系数据库结构定义不易改变数据定长的限制,支持重复字段、子字段及变长字段,实现了对变长数据和重复字段进行处理及数据项的变长存储管理。

(3)数据仓库。

数据仓库是集成的面向主题的数据库集合,其中的数据是面向主题进行组织的,是在较高层次上对分析对象的完整、一致的描述,能反映各个分析对象所涉及的数据及数据之间的关系。数据仓库中数据的组织方式有虚拟存储、基于关系表的存储和多维数据库存储3种存储方式。

4.网站

网站组织模式是目前网络信息资源最为广泛的一种模式。它是将文字、图像、声音、动画、视频等多种网络信息资源用超文本标记语言或可扩展标记语言进行结构化描述,再经过相应的解析器或浏览器而显示的一种组织模式。网站是网络信息资源的重要组成部分。从网络的组织结构可以看出,信息资源主要分布在网站上,而网站作为网络信息与网络用户之间的中介,其最终目的在于将网络信息有序化、整合化,向用户提供优质服务。因此,Internet向用户提供的网络信息服务,在很大程度上是依靠网站来实现的。

(二)网络公共信息资源的宏观组织

随着网上信息的急剧膨胀,对网络信息资源进行组织与控制的工具——网络资源指南和搜索引擎应运而生,它们是目前因特网上很流行的信息组织方式和重要的检索工具,组织的是整个网络范围的信息,提高了网上资源的序化程度,在一定程度上满足了人们网上信息查询的需求。当然,这样的划分只是为了介绍的方便,并不是绝对的区别,而是针对检索工具的主要功能而言的,因为二者有相互融合渗透的趋势。

1.网络资源指南

网络资源指南(Web Directory)是以人工或半自动方式收集信息,由编辑人员查看信息之后,根据一定的选择标准来挑选所录用的链接资源,人工形成信息摘要,然后将挑选出来的资源置于事先确定的分类框架中,形成分类树形结构目录。因而,网络资源指南方式有时又被称为主题树方式。网络资源指南的资料库中并不保存网页,而是保存各网站的站名、网址和内容提要。[11]网络资源指南的实质,就是把信息资源的分类和主题有机地结合起来,把分类检索和主题检索有机地结合起来,把人工控制语言和自然语言结合起来,是对网络信息资源进行序化、控制和检索的最有效方法。目前,许多著名的网络检索工具如Sohu、Inforseek等都是采用这种模式组织信息资源的。

网络资源指南的价值在于通过对网络信息资源进行分类整序,并对其进行关键词字顺整序,把索引数据库的信息通过类目、关键词、信息形式特征、信息编码特征等关联起来,从而向用户提供分类主题一体化服务。这种组织方式的优点在于:[12]第一,简单方便,它屏蔽了网络信息资源系统对于用户的复杂性,提供了一种基于树形浏览方式的网络信息浏览界面;第二,信息资源检索按照一定的体系结构,逐次查找,对用户而言,目的性强,查准率高。其缺陷在于:体系结构不能过于复杂,每一类目下的信息索引条目也不宜过多,这就大大降低了其所能容纳的信息资源数量。

总的来说,网络资源指南收录的信息质量高、专题性强、组织严密,且具备很强的适用性和可操作性,可以利用计算机操作环境与技术,建构多维的分类体系,利用超文本技术把类与类、类与记录链接起来,可揭示多维知识空间的联系。但是,由于这种组织方式需要人工分类整理,其收录范围与新颖性不够,缺乏摘要,所以对信息资源的描述也不够,而且分类中使用的分类体系与方法也不尽合理,因此,需要进一步发展才能成熟。

2.搜索引擎

在1993年之前,多数用户查找Web信息是从一个URL开始,沿超级链接搜寻。显然,这种方法要想在具有海量信息的网络中检索到所需要的信息是非常困难的,加之在数据环境下,信息资源是一种分散的、多种媒体的、多格式的、没有统一规范控制的网络信息资源,网络信息资源需要不同于传统模式的新型组织模式,在这种背景下,1994年出现了搜索引擎。目前国内常用的搜索引擎有Google、百度、AltaVista等。

搜索引擎通过在Internet上提取各个网站的信息来建立自己的数据库,并向用户提供查询服务,它由信息采集软件、索引、检索模块3部分组成:①信息采集软件,可以定期或不定期地在网上自动搜寻网络中公开区域的相关信息,通过从一个网页到另一个网页地游遍Web,扫描每一个网页中的每一个词(单元信息),鉴别和阅读网页。②索引,自动对采集到的网络信息资源进行标引、著录,建立起一批由信息采集软件收集来的网页所组成的数据库。③检索模块,用户输入关键词或检索式,搜索引擎根据这些关键词匹配用户所需资源的地址,然后根据一定的顺序(如字母排列、时间和相关度等)将符合要求的所有网址和指向这些网址的链接反馈给用户,通过这些超链接用户即可访问这些网站。

搜索引擎方式是目前网络数字环境下对信息资源进行组织的主要方式之一。搜索引擎方式存在的最大问题是专业化问题。随着网站和网页数量的快速增长,搜索引擎的搜索功能越来越受到局限。据调查,目前最著名的搜索引擎只能检索到互联网上不到20%的网站。而且其搜索到的信息良莠不齐,因而查准率降低。由于学科面很广及受专业知识限制,搜索引擎很难深入到某一学科或专题,其目录的分类编排也无法做到科学合理。

(三)网络公共信息资源的深层组织——学科门户网站

当人们面对茫茫网海无从下手的时候,Yahoo作为以提供搜索服务为主的网站出现了,扮演了引导人们向网络信息海洋“入门”的角色,成为网民进入互联网的“门户”,这就是最早的门户网站。所谓门户网站,是指通过某类综合性互联网信息资源并提供有关信息服务的应用系统。门户网站最初提供搜索引擎和网络接入服务,后来随着网络信息类型的发展变化,门户网站的服务不断增加,成为网络世界的“百货商场”和“网络超市”。[13]

1.学科门户网站的概念

人们对信息的需求是多种多样的,门户网站提供给人们的是一种综合性的、通用性的信息服务。但是,人们还有一种特定的信息需求,这就是对某个专业学科信息的需求,不同的用户需要不同的专业知识。在这种特定信息的检索中,人们对信息检索过程和检索结果的精确度要求都比较高,而现有的门户网站难以满足这些需求。因此,以满足这种特定专业学科信息需求的服务网站应运而生,这种网站就是学科门户网站,如某个学科的门户网站、政府门户网站、企业门户网站等,还有一些更为专业的门户网站也正在兴起。学科门户网站成为网络信息资源组织的一种典型模式。

学科门户网站,也叫学科信息门户(Subject-Based Information Gateways,SBIGs),或主题门户、主题网关。学科门户网站是指提供可检索和可浏览的因特网资源目录的联机服务系统,一般集中于某一相关的学术领域,提供按学科组织的因特网资源的利用。学科门户网站是近几年才发展起来的网络信息资源的深层次组织模式。

目前,国内外重要的学科门户网站有Intute、LII、BUBL LINK和CSDL等。学科信息门户的信息组织工作主要包括采集、资源描述、审校、资源排序和提供检索服务5项内容。通过各种搜索引擎采集分散于Internet上的某学科(专题)的信息资源,以元数据、简介和评价等方式对学科信息资源进行描述,并对数据的各个字段进行人工抽检,将审校过的信息按学科专业、资源类型和字顺排序,允许用户在许可的条件下进行单项或组配查询,并提供信息推送与个性化服务。

2.学科门户网站的特征

随着学科门户网站的发展,以及人们对学科门户网站研究的不断深入,可以发现学科门户网站有一些共同的特征:[14]

(1)提供网上大量网站或文献链接的在线服务。

(2)根据特定的质量和范围标准,运用人的智力劳动选择资源、完成内容描述、构建浏览/分类结构(不包括完全无组织的链接表)。

(3)至少部分是人工为每个资源创建(书目)元数据。

黄如花将学科门户网站的特点全面总结为:尽可能全面地收录本学科资源,严格选择资源,对资源进行高质量的元数据描述,构建合理的分类体系和尽量运用受控词表,定期更新和维护,重视互操作性,运用相关技术,提供个性化和人性化服务。

学科门户网站一定有明确的主题,所收录的信息资源一定属于某些既定的主题范围,而且它有明确的用户类型。学科门户网站与搜索引擎的不同之处在于:搜索引擎对信息资源的标引是由软件自动完成的,而学科门户网站的信息选择是由专家人工完成的。学科门户网站在选择信息资源时通常都具有明确的并能严格执行的标准,专家依此标准选择信息资源,并对所选择的信息资源进行描述、分类和标引。也就是说,学科门户网站不但具有针对性、可靠性、集成性、知识性和智能性等特征,而且具有结构性的特征。

3.学科门户实例:CALIS重点学科网络资源导航门户

(1)简介。

作为信息资源和其读者之间的桥梁,高校图书馆可以针对网络信息的特点,有组织地进行信息资源的选择和整合工作,最大限度地节省读者的检索和甄选时间,为其提供高质量的网络信息资源导航服务。正是基于这种思想,中国高等教育文献保障系统(CALIS)在“九五”期间启动了“重点学科网络资源导航库”(以下简称“导航库”)项目,目的是将因特网中相关重点学科的最优秀的网站信息提供给读者,帮助高校科研人员快速、准确地获取所需的相关权威机构、出版物、专家、学术动态等信息。当时作为“九五”CALIS重点建设项目之一的导航库由上海交通大学牵头承建,共有48个图书馆参加,完成了217个重点学科的导航库建设,基本覆盖了我国高校主要重点学科,数据库初具规模,为相应重点学科的教学和科研工作提供了较大的帮助。当然,它也为“十五”导航库建设积累了宝贵的经验,培养和锻炼了专业队伍。

“十五”期间,CALIS依然将导航库作为重点建设的子项目之一,由西安交通大学牵头承建。经CALIS管理中心批准,成立了由北京大学图书馆、清华大学图书馆、上海交通大学图书馆、南京大学图书馆、武汉大学图书馆以及厦门大学图书馆组成的项目管理小组,西安交通大学图书馆为组长单位。管理小组主要负责系统平台的协作开发、导航库相关标准规范的制定以及导航库资源建设的协调工作等。“十五”期间共有54家高校图书馆参与导航资源的建设。在CALIS管理中心的领导下和项目管理组以及各参建馆的共同努力下,“十五”导航库项目从2003年10月正式启动,到2006年6月在北京通过CALIS专家组验收,历时两年多,顺利完成了预期目标和建设任务,成为率先在网上向读者提供信息服务的CALIS子项目之一。CALIS重点学科网络资源导航门户网站如图3—4所示:

图3—4 CALIS重点学科网络资源导航门户首页

(2)建设内容。

CALIS重点学科网络资源导航门户的目标是采用CALIS网络资源元数据标准,开发一个智能化网络资源收集与管理系统,建立覆盖50多个一级学科的网络资源学科导航数据库和相应的服务平台。其主要建设内容为:

·开发一个智能的网络资源导航系统资源建设平台、用户服务平台及资源收集与整理平台,以实现网络资源的规范收集、分类、组织和序化整理,并能对导航信息进行多途径内容揭示。

·形成相关标准与规范,包括资源选择标准、资源描述标准、导航资源类型标准、软件需求报告、项目管理细则。

·建立一个至少覆盖50个一级学科的系统的、完整的网络资源学科导航数据库。每个学科的导航内容应包括支撑学科发展的必备内容和可选内容,应涵盖该学科下所有重点二级学科。

·建立一个支持项目可持续发展的机制,包括项目管理模式、项目运作模式以及系统运作模式。

·配合CALIS评估子项目,建立本项目的评估方法,并提供统计数据接口。

(四)网络公共信息资源的分布式组织——数字图书馆

如前面所述,文件、超媒体、数据库、网站、网络资源指南、搜索引擎和学科信息门户等信息组织方式已运用于网络信息的组织。从某个局部来看,如某个文件、利用超文本链接的相关资源、某个网站、某个数据库或某个学科信息门户,是有控制的、相对集中的、有序和规范的。但从总体上看,由于互联网上的信息没有统一控制,信息的质量参差不齐,网上的信息是分散、无序、不规范的由网络互联在一起的分布信息仓储是异构的,这些各自独立的信息仓储具有各自不同的组织、描述和检索方式,难以实现跨仓储的统一利用对知识的运用还远远不够,尤其是面向需求的用户知识和领域知识。人们需要一种跨仓储的、统一的、高效的访问和利用工具,以及高质量信息的生成、组织和提取途径,数字图书馆正是迎合了这种需要。目前,数字图书馆(Digital Library,D-Lib)在网络信息资源组织中扮演着重要的角色。顾名思义,数字图书馆就是以数字形式去存储大量的信息,并能对存储的信息资源进行高效的操作,如收集、组织、检索等。数字图书馆的研制起始于西方发达国家,随后向全球扩展,目前,我国许多大学和公共图书馆都纷纷提出了各自的数字图书馆建设计划。

1.数字图书馆的概念

“数字图书馆”一词源于1993年由美国国家科学基金会(NSF)、美国国防尖端研究项目机构(DARRA)、美国国家航空与太空总署(NASA)联合发起的数字图书馆创始工程(Digital Library Initiative,DLI)。[15]随着信息化社会的不断发展,作为一种全新的图书馆形态,数字图书馆已经被越来越多的人所接受,并成为国家信息基础建设的重要组成部分,成为网络公共信息资源组织的主要方式之一。

数字图书馆是利用现代信息技术对有使用价值的图像、文本、声音、视频、图形等多媒体信息进行数字化处理,借助最新的计算机技术、通信技术和网络技术,建设超大规模的、可扩展的、客户操作的知识库集群。其主要目标是对多媒体信息资源实现数字化管理,建设一个有序的信息空间,提供全方位的网上服务,实现人类真正意义上的知识财富共享。[16]数字图书馆实质上是依托于因特网而存在的图书馆,它从根本上改变了目前因特网上信息分散、无序、不便使用等现状,成为没有时空限制、便于使用的、超大规模的知识中心。

数字图书馆建设以统一的标准和规范为基础,以各种数字化的信息为底层,以分布式海量信息资源数据库群为支撑,以智能检索技术为手段,以电子商务手段为管理方式,以宽带高速网络为传播通道,最终将丰富多彩的多媒体信息传递给广大用户。数字图书馆的建设涉及了数字资源的生产、加工、存储、检索、传递、保护、利用、归档、筛选、剔除等全过程。

2.数字图书馆信息资源的特征

从信息组织的角度来看,数字图书馆的信息资源具有以下一些特征:[17]

(1)经过选择的数字化信息资源。数字图书馆根据用户的需要选择、收集信息资源,建立数字信息资源库。其收集对象不仅包括网络信息资源、数据库等,还包括已经存在的图书、期刊、录音带、录像带等记录在其他介质上的信息资源。经过选择的数字化信息资源,是数字图书馆信息资源和现有的网络信息资源的最重要区别之一,网络信息资源在被选择和组织之后便成了数字图书馆信息资源的一部分。

(2)多媒体信息资源。数字图书馆的信息资源库中包含各种各样的信息,如文本、音频、视频、图形、图像等不同媒体的信息。一般情况下,各种媒体的信息存放在不同的信息资源库中,形成如字符数值库、文本库、声音库、图像库等专门的信息资源库,各种媒体之间通过超媒体的方式组织,用户可以通过高度链接的网络结构在各种信息资源库中随意浏览。

(3)海量信息资源。数字图书馆信息资源的内容不仅包括数量成倍增长的网络信息资源,还包括原本记录在传统介质上的、经过数字化处理后的信息资源,其处理的数据是海量的。

(4)分布式信息资源。数字图书馆中,任何一台计算机都不可能将所有的数字信息资源存储起来。海量的数字信息资源必须以大量的分布式的资源库群的形式存放在不同的计算机上。在这种分布式的资源库群众,不同计算机分担着特定的信息资源的收集、加工、存储、传递、利用、维护的任务,但同时又共享存储在其他计算机上的数字信息资源。数字图书馆通过高数的网络存取、资源调度系统为用户提供无缝跨库检索服务。

(5)按需提供的信息资源。在数字图书馆中,信息资源被保存在三级存储媒介上,信息资源的传递通过一组组的数字信息在网络上的流动来实现。当用户需要利用数字图书馆时,可以通过数字图书馆的交互界面与计算机对话,提出服务要求,数字图书馆则利用高效的检索系统为用户提供迅速、准确的检索服务,将所需的信息资源传送给用户。

3.数字图书馆信息组织的特点

数字图书馆是一个面向广大用户提供海量多媒体信息资源服务的数字信息资源系统。由于数字图书馆所处理的信息资源及其服务对象都不同于以往的信息资源系统,因此,数字图书馆的信息组织也有其本身的特点,主要表现在以下三个方面:[18]

(1)以用户为中心。数字图书馆为用户提供的是一种个性化的信息服务。它根据每个用户的信息需求,从海量的信息资源中找出符合用户要求的信息并传递给用户。因此,数字图书馆必须从用户的实际需求出发来组织信息资源。

(2)采用自动化手段对信息资源进行加工。传统的信息组织主要通过人工或是在计算机的辅助下由人工来完成信息资源的描述、内容分析标引等加工整序工作,需要大量的人力和时间。在信息资源数量较少的情况下,这种方式还是比较有效的,但它不能适应数字图书馆处理海量信息的需求。数字图书馆必须尽可能多地采用自动化手段如自动分类、自动聚类、元数据自动抽取等对资源进行加工,开发资源库。

(3)提供对信息内容的智能检索服务。信息组织的目的是要实现高效的信息检索。在数字图书馆中,信息的组织将运用现代的计算机技术,为用户提供对信息内容的智能检索服务。例如,对于图形、图片、视频信息不仅能够利用反映其内容的主题词或关键词来查找,还能够通过它们的颜色、纹理、形状、关键帧等来查找。并且,数字图书馆的检索实现无缝跨库链接,其检索的范围虽然为整个数字图书馆的数字信息资源,但用户能够方便、迅速地找到所需的内容。

4.数字图书馆实例:CNKI

数字图书馆是一个容纳多种信息资源于一体的综合性的信息资源库。目前,国内外著名的数字图书馆有SCI、EI、CA、MEDLINE、CNKI等。作为我国数字图书馆建设的一面旗帜,中国国家知识基础设施(China National Knowledge Infrastructure,CNKI)经过多年的发展,无论是在资源数量、信息组织水平、检索平台功能还是信息服务方面都取得了长足的进步,知识增值效应得到了充分的显现。

(1)简介。

CNKI工程是以实现全社会知识资源传播共享与增值利用为目标的信息化建设项目,由清华大学、清华同方发起,始建于1999年6月。经过多年的努力,CNKI工程集团采用自主开发并具有国际领先水平的数字图书馆技术,建成了世界上全文信息量规模最大的“CNKI数字图书馆”。CNKI 亦可解读为“中国知网”(China National Knowledge Internet)的英文简称,它是基于《中国知识资源总库》的全球最大的中文知识门户网站,具有知识的整合、集散、出版和传播功能。

CNKI工程的具体目标是:[19]①大规模集成整合知识信息资源,整体提高资源的综合和增值利用价值;②建设知识资源互联网传播扩散与增值服务平台,为全社会提供资源共享、数字化学习、知识创新的信息化条件;③建设知识资源的深度开发利用平台,为社会各方面提供知识管理与知识服务的信息化手段;④为知识资源生产出版部门创造互联网出版发行的市场环境与商业机制,大力促进文化出版事业、产业的现代化建设与跨越式发展。

CNKI基于其相当完备和充足的资源数量,充分体现了数字图书馆信息组织的灵活性、深入性、适应性、有效性等特征,为实现知识搜索提供了充分的信息组织和知识组织保证。CNKI以多维导航、检索结果分组聚类和排序显示、引文链接、知识元链接、概念关系词典等主要信息组织技术为支撑,提供强大的信息检索功能和知识发现功能,极大地提高了信息资源的增值利用程度。

(2)信息资源组织特点。

CNKI提供了一个相对较为完善和深入的数字图书馆信息组织方法体系,可以作为我国数字图书馆信息组织的典范。我国学者包冬梅从信息组织的视角对CNKI知识网络服务平台分别从宏观(资源集合的导航组织;检索结果集合后处理组织)、中观(基于文献单元的引文链接组织)、微观(基于知识单元的知识元链接组织;概念关系词典技术)层面进行了剖析。[20]在包冬梅的研究基础上,我们将CNKI信息资源组织概括为:

①资源集合的导航组织。

导航体系决定用户对系统信息资源的选择和搜寻策略。当信息集合覆盖多学科、多层次、多类型的巨量内容资源时,如何引导用户快速定位到目标子集合、找到所需要的信息内容就是信息集合可用性和易用性的一个重要指标,这就是资源的导航组织。

CNKI将《中国知识资源总库》中各数据库整合为一个检索平台,使每种数据库都支持单库和跨库检索。为此,CNKI平台提供了多维导航和个性化导航,并在最新版平台中实现了多维导航和个性化的集成。多维导航分为学科内容分类导航、数据库资源类型导航、期刊导航(按期刊荣誉和权威性)、基金导航(根据期刊发文的特点)和机构导航等。个性化导航,主要体现在最新版的CNKI中,《中国学术文献网络出版总库》收录的所有文献,均按《中国图书分类法》分成168个学科数字图书馆和3000多个子专业数字图书馆,各学科专业数字图书馆均是该学科专业的学术文献总库。用户可根据自己的研究领域,选择进入某学科专业领域的数字图书馆,既可纵览本学科全部文献内容,又可涉猎本学科的相关领域。各专业馆详细揭示本学科及其边缘和交叉学科的重要研究成果、进展与动态,并可使用户了解、掌握重要研究项目和相关研究人员与机构的研究历史和最新动向。

②检索结果集合后处理组织。

检索后处理阶段对检索结果集合的聚类组织和排序显示是对检索结果的进一步重组,有助于用户快速定位到准确的检索结果,减轻检索负担。

CNKI新平台对检索结果集合进行了深入的细化分组聚类和排序组织,一是提供多角度的文献分组聚类:学科类别、中文关键词、研究层次、文献作者、文献出版来源、期刊名称、研究资助基金、来源数据库、发表年度、作者单位;二是提供相关性、发表时间、被引频次和下载频次多种排序显示方式。将传统上线性、一维、散列的检索结果立体化、多维化、计量化,从而实现检索结果的快速筛选和准确定位。

③基于引文链接的知识网络。

CNKI平台的基础之一就是引文链接网络,它对所收录的每一篇文献进行引文分析,切分引文条目,分析引文元数据项,建立深度关联的引文网络,包括参考文献、引证文献、共引文献、同被引文献等。此外,CNKI还通过对相关知识元(如作者、机构)的分析,以及基于Web日志分析和关联规则挖掘,设置了相似文献、同作者与相关作者文献、同机构与相关机构文献等相关文献的链接。“引文网络+相关文献链接”构成了CNKI的核心——“知网节”。

通过深度引文分析链接关联起来的“知网节”,人们可以追溯课题的发展历史和研究背景,把握目前的研究进展与研究现状,并探索未来的发展趋向及研究空间。同时,“知网节”又是一个强大的检索平台,通过它所提供的个性化知识服务(推服务),有助于激发、引导、类比、联想等各种创新思维,促进科学发现和技术创新。

④基于知识单元的知识元链接组织。

知识元是构成知识结构的最小独立单元,用来表示一个个针对特定问题的解决方案,可以是概念、方法、规则、公理等数据或事实以及实例化的知识。由于知识元的内容比较单一、独立,比较容易选择与之相适应的最佳存储和查询,便于知识库的构建与检索,便于用户直接查询、组合知识元。

在引文链接的基础上,CNKI深入到文献中的微观层面,提炼出知识元,通过知识之间在微观水平上的联系把知识直接关联起来,从而真正形成“知识网络”,支持知识搜索。CNKI知识元数据库是由独立的知识元素构成的数据库。通过对《中国知识资源总库》资源的加工,提取出具有独立性和完整性的知识单元,然后以知识网络为基础,为“知识单元”设置链接,构建成知识元数据库。

CNKI知识元数据库还包括从其他文献中挖掘出来的最新知识元,该知识元库是不断动态变化的。基于上述知识元库,CNKI以知识网络中心为基础,对作者、机构、刊名、关键词以及相关作者、相关机构、相关关键词等“知识单元”设置链接,通过这些链接可以检索知识网络中心配制的数据库的相应字段,获取检索结果。

目前,在基于知识单元的知识元链接组织层面上,CNKI提供的知识搜索包括对文献、数值、学术图形、历史事件、学术定义、学术趋势、新概念、表格等的搜索以及翻译助手、学术统计分析、热点趋势分析等,在常规检索中可以实现相关词和相似词的扩展推荐。

(五)学术信息资源的集中组织——机构知识库

20世纪以来,随着科学技术发展和科学研究能力不断增强,学术信息生产速度倍增。在信息爆炸的时代,学术界却出现了“学术交流危机”和“期刊价格危机”。导致“学术交流危机”产生的原因并不是由于学术信息数量的减少,而是由于所获取的学术信息不能充分满足他们的需求。科研人员由于受到各种因素制约,不能获得充裕的信息资源。其次,由于传统学术交流体系周期长、具有一定延滞性,使学术信息的新颖性和前沿性得不到保证。再次,用户的使用权限往往会受到版权保护严格的限制。

为了解决学术成果出版发布问题,便于学术信息在网络中广泛传播和自由使用,开放社会研究所(Open Society Institute,OSI)于2001年12月在布达佩斯会议上提出了“开放存取”的思想,并起草、发表了“布达佩斯开放存取先导计划”(Budpest Open Access Initiative,BOAI)。BOAI 认为,开放存取可提高学术信息的可获得性,能实现学术资源共享,是一种有效可行的学术出版模式。[21]机构知识库就是在这种背景下产生的,并受到广泛关注,成为公共信息资源组织的一种新型模式。

1.机构知识库的含义

国内外学者对机构知识库的定义尚不统一,学术出版和学术资源联盟SPARC资深顾问Raym Crow,他认为机构知识库是收集并保存单个或多个大学、科研机构知识资源的数字化资源集合;[22]Clifford A.Lynch从大学的角度为机构知识库做了如下定义,他认为:“大学中的机构知识库是大学为其员工提供的一套服务,用于管理和传播大学的各个部门及其成员创作的数字化产品。”[23]尽管不同学者对机构知识库含义的认识与表述还不尽相同,但仔细分析可以发现机构知识库具有如下特点:

(1)构建的主体和收藏的地域界限是机构,即它的建立和运行是以机构为轴心和主线的,在这一点上区别于基于学科或专题的知识库。这里所说的机构,既可以是实体的,如一个实体的大学、研究所、大学联合体,也可以是虚拟的,如数字科研环境下可能出现的虚拟联合实验室,e-研究院等。

(2)构建和实现的基础平台是网络,即通过网络实现资源的提交与共享,实现它的管理和运行。

(3)操作和运行的开放性原则。既要保证与其他机构知识库之间的互操作,保证知识库中的内容能够被机构之外的用户方便地访问和使用,并且能够有效地存取其他机构的知识库的内容。

综上所述,机构知识库是一个机构建立的,以网络为依托,以收集、整理、保存、检索、提供利用为目的,以本机构成员在工作过程中所创建的各种数字化产品为内容的知识库。

2.机构知识库的功能

从学术信息交流角度来看,机构知识库旨在促进电子出版(e-Publishing)和开放存取(Open Access)运动,解决学术交流体系中出现的矛盾,弥补现有学术出版模式的不足,推动新型分离式学术出版模式的建立与发展。从学术信息资源共享角度来看,机构知识库实现了机构内、机构间的学术信息资源整合、交流合作和面向世界范围内的用户学术信息资源共享。Raym Crow认为机构知识库能够解决两个问题:一是改革学术交流系统;另一个是解决机构质量评价的问题。Alma Swan[24]认为知识库能够为机构带来以下利益:

·对全世界的学者开放机构的产出;

·将产出的可见性和影响力最大化;

·向相关利益者(预期的员工、学生等)展示机构;

·收集和整理数字化产出;

·管理和测量教学活动与研究;

·为工作过程、合作项目或大规模项目提供一个工作空间;

·允许并鼓励用跨学科的方法进行研究;

·促进数字化教材的开发和共享。

3.机构知识库的发展情况

从20世纪90年代开始,国内外开始了对机构知识库的研究,国外理论和实践都已经进入较为成熟阶段,2004年以后机构知识库在国内也逐步受到重视。目前,国内外很多机构纷纷建立了机构知识库,其中比较有代表性的包括伦敦大学学院机构知识库(UCL Discovery)、南安普顿大学机构知识库(EPrints Soton)、佛罗里达州立大学机构知识库(D-Scholarship)、麻省理工学院的机构知识库(DSpace@MIT)、美国加利福尼亚大学机构知识库(eScholarship)、德国马普学会机构知识库(eDoc Server)、台湾学术机构典藏(TAIR)、厦门大学学术典藏库(XMU IR)等。

近年来,全世界的机构知识库建设数量快速增长,通过ROAR[25](Registry of Open Access Repositories)网站和OpenDOAR[26](Directory of Open Access Repositories)网站可以对世界各地机构知识库的发展概况进行了解和分析。ROAR 网站是由英国南安普顿大学创办,OpenDOAR是由英国的Nottingham大学和瑞典的Lund大学共同创建,其目的都是监控全球机构知识库的发展情况,提供有关机构知识库、学科资源库等资源的目录列表。[27]

根据ROAR网站的统计结果显示,从2004年以来,全世界每年都会构建大量的机构知识库,机构知识库正以突飞猛进的速度发展,成为公共信息资源组织的主要模式之一,如图3—5所示。

图3—5 全世界每年机构知识库构建的数量

同时,每个国家机构知识库的构建数量是存在差距的,从OpenDOAR网站上可获取各国机构知识库数量的统计,如图3—6所示。从图中可以看出,目前机构知识库数量较多的国家是美国、英国、德国、日本、西班牙等国家,这些国家构建机构知识库的数量占全球机构知识库总数量的42.6%。

由于ROAR和OpenDOAR网站采用不同的机构知识库元数据收割协议,所以统计的数据存在一定的差距,但是从总体上看两者的数据在反映各国机构知识库宏观发展状况发面有很强的一致性。

图3—6 世界各国机构知识库所占百分比

4.机构知识库实例:台湾学术机构典藏

(1)简介。

台湾地区教育部门于2005年5月委托台湾大学进行“建置《台湾学术研究资源中心》运作架构、机制与执行策略计划”(简称T-AREL计划),为在台湾地区建设机构典藏系统进行前期调研和准备。2006年6月至2009年7月,台湾地区教育部门继续委托台湾大学图书馆进行“建置机构学术成果典藏计划”,有目的、分步骤地开始建置一个遍布台湾多个高校的、颇具规模的机构典藏共享平台——台湾学术机构典藏(简称TAIR),如图3—7所示。

TAIR整合了台湾各大学院校的学术资源,以作为台湾整体学术研究成果的累积、展示与利用窗口。它采取“分散建置,集中呈现”的运作机制,即以“国立台湾大学”为试点,协助台湾地区各大专院校分别建置机构典藏,并通过TAIR整合平台全面提供台湾学术研究成果。截至2013年11月7日,加入TAIR的机构共131所,总计收录了1498766条文献记录,其中全文资源共926290条,其访问量已达111075861人次,取得了令人满意的结果。

图3—7 台湾学术机构典藏首页(2013—11—7)

(2)典藏呈现。

TAIR大部分采用DSpace[28]作为软件平台,或者在使用台湾大学DSpace 1.4 Beta的基础上,依照本地的语言特性及使用需求进行本地化后的系统平台(比如交通大学、成功大学、中山大学、清华大学等)。[29]

①栏目。TAIR现已开通的信息板块有“关于TAIR、浏览、消息、著作权、相关链接、机构分布地图”等,版面布局采用“左中右”三栏模式。

②内容组织形式。TAIR所包括的大部分院校典藏都是以学院为一级单位,以系所为二级单位,然后再由系所依据不同的资料类型分别归档。

③功能。a.提供分类浏览:典藏机构、作者、题名、日期、统计图表、机构即时统计;b.语言切换:简体中文、繁体中文、英文三种语言选项;c.统计:提供全文笔数/总笔数、造访数和线上使用者的统计;d.排行榜:分为上传排行和下载排行。上传排行分院系、作者两个栏目,日更新。下载排行分为院系、作者、文件三个栏目,日更新;g.提供检索:提供作者、题名、主题、摘要、语言、日期、院校等项目的组合检索。

(3)典藏内容。

针对机构典藏的内容选择与收录,台湾地区进行了多层次全方位的深入分析,重视研究活动与科学、社会、经济等诸多方面的关联性,指出应尽可能全面、详尽地收录各种形式的研究产出,满足不同用户群体的信息需求;强调“全文”是机构典藏收录工作中最重要的观念;突出机构及学科间的差异性,适当调整重点收藏项目。

TAIR收集的资料主要包括:研究人员的学术期刊论文、学术会议论文、博硕士论文、数字教材、各类技术报告与研究报告、学术演讲的投影片、论文的预印本及后刊本、研究记录等。另外,有一些学校还收藏了另外方面比较有特色的内容,比如成功大学教务处提交的校刊、中山大学音乐系提交的演出作品视频,还有交通大学和中山大学都收藏了一些科系的试卷。[30]

第三节 公共信息资源组织的用户导向

随着以用户为中心的理念和Web 2.0技术的产生和发展,信息组织将向着用户主导的方向发展。在Web 2.0的环境中,信息服务以Web作为平台,强调集体智慧在信息组织中的作用,信息环境随用户需求和服务改变,软件独立于用户且强调用户体验。Web 2.0使用户能够主导信息的生产和传播,打破了原来门户网站所惯有的单向传输模式。

一 Web 2.0的特征

在Web 2.0的信息系统中,信息发布的自由度大大增强。分布广、数量多的用户为网络提供信息内容,用户成为信息的生产者。在Web 2.0环境下,用户既是信息的生产者,也是信息的接受者和反馈者。网络信息的生产、传递、接收活动都是围绕用户进行的,信息组织的出发点和归宿点都是用户。其主要特征有:

(1)面向服务。Web 1.0的业务模式是产品而Web 2.0的业务模式已经从产品转向了服务。公共信息资源正是为公众服务的,Web 2.0使公共信息资源更加方便地服务公众。

(2)用户参与。Web 2.0将服务质量的提高依赖于用户的参与。公共机构在网上发布信息,公众不但可以浏览这些公共信息资源,而且还能参与发布、修改、评价等活动,贡献出各自的资源,进而提高了公共机构服务公众的质量。

(3)内容聚合。Web 2.0将信息共享从静态信息转向了内容聚合,而在Web 2.0上常常使用RSS做成文章间的链接,用户按自己所需的内容,从网络上收集各种RSS Feed,并在一个界面中提供给读者进行阅读,从而实现内容聚合。

(4)信息产生的多样化。在Web 2.0上,任何人都可以简单地利用微博、博客、社会网络服务(SNS)等网站来发布信息。

总之,Web 2.0是以Flicker、Craigslist、Linkedin、Tribes等网站为代表,以Blog、Tag、SNS、RSS、Wiki等社会软件的应用为核心,根据六度分隔[31]、XML、Ajax等理论和技术实现的新一代互联网模式。

二 以用户为中心的公共信息资源组织

以用户个性化需求为导向来组织网络信息资源是以用户为中心的信息组织的发展方向。在Web 2.0环境中,用户导向信息组织改变了公共信息资源组织的界限,过去通常是专家或专业机构进行信息组织的,Web 2.0让普通用户参与到公共信息资源的开发和组织中,一方面大规模增加了结构化公共信息的数量,提高了公共信息资源组织效率;另一方面用户可参照自身需求对公共数字信息资源进行组织和整合,满足自身的个性化信息需求。

在Web 2.0环境下,出现了许多以用户为中心的信息资源组织方式,包括RSS、微内容、微格式、博客、大众分类法、Wiki、SNS、Mashup、云计算等,[32]这些信息组织方式能使用户更快、更方便地获得想要的网络信息资源。

(一)RSS

RSS是Really Simple Syndication的简称。RSS是一种信息来源格式规范,用以发布经常更新信息的网站,例如,博客、新闻、音频或视频的网站。被发布的RSS文件被称为RSS Feed,RSS Feed是一段规范化的XML格式的数据,为网站内容提供摘要和链接到源内容的入口项,以便被其他站点、终端和服务调用。[33]

在RSS规范下,公共机构发布RSS Feed后,RSS Feed中包含的公共信息就能直接被其他站点调用,而且由于这些数据都是标准的XML格式,所以也能在其他的终端和服务中使用,如手机、邮件列表等。RSS与HTML网页一样,是网络信息资源分发和汇集的一种形式。公共机构可以通过RSS Feed以供用户订阅,将信息“推”送至用户桌面,也可以将其他站点的内容集成到自身网站;用户则可以通过RSS阅读器将多个来源的信息聚合起来,并可根据需求对信息源进行分类组织,以便及时动态地获取相关信息,满足个性化信息需求。

(二)微内容

微内容是由雅各布·尼尔森(Jakob Nielsen)在1998年提出的,是指网站中权重较轻的小段文本。[34]随着博客等工具的出现,微内容的含义更加广泛,阿尼尔·达什(Anil Dash)在2002年提出了微内容更广泛的定义,指出微内容是包含一个主要概念或观点的内容,可以通过唯一的URL或permalink链接访问,并在电子邮件服务器、网页浏览器或掌上设备中使用。[35]斯比瓦克Spivack则认为,微内容是关于元数据(网页发布中XML或RDF中定义的)和数据(网页发布的内容)的有限集合,有唯一的标识和URL,并可提供关于某一特定思想的小量信息。“微”是微内容的主要特征,是指具有唯一标识和URL的信息单元,且能独立于来源信息系统在网中独立地被出版、订阅和链接。

微内容的典型应用包括:博客文章、RSS发布、讨论发布、Wiki节点或拥有URI的数据库记录等。借助微内容可以对分散和繁多的公共信息单元进行结构化定义、描述和组织,为网络公共信息资源组织提供更细致和结构化的信息单元,有利于对大量的网络公共信息进行结构化,为用户的信息需求提供量的保证。很明显,微内容为公共数字信息资源组织的深化提供了条件。

(三)博客

博客全称是Weblog,是让一个人进行记录评论、描述事件或发布图片或视频资料的一类网站的统称。典型的博客包括文本、图像和与其他博客、网站和相关主题的信息源的链接。博客以文本信息发布为主,其重要特征之一是为访问者提供交互的评论功能。

博客让博主在个人博客上发布博文,博文通过时序组织、形式分类法、形式主题法以及关键词聚类组织得以组织,此外,博客允许博主对博文进行自组织,例如自由创建类目和添加标签等,是一种简易、低成本且个性化的信息发布和组织方式;对访问者而言,博客允许访问者在博客中留言、对博文进行评论、转发等,这不但为用户之间提供了相关主题交流的可能,还使访问者通过订阅、聚合和搜索等功能对博客信息进行二次组织。

目前,各大公共机构,尤其是政府部门都开通了博客。政府博客是指政府以网络为媒介,表达政府思想、信息和网络链接,所发表信息按照时间顺序排列,并且不断更新的出版方式。目的是为了增强政府工作透明度,推进与公众或其他社会团体的良好沟通。同时,通过政府博客,政府机构能够为公众提供公共信息资源,满足公众的信息需求。

博客为普遍用户提供了低成本且有效的自组织工具。宏观上,博客网站相互联系形成的博客圈,以及博客资源网络分类目录、博客搜索引擎等,使互联网上的博客信息资源形成一定秩序。

(四)Wiki

Wiki中文简称维基,是指一种多人在网上协同创作的知识共享模式。允许网络用户针对同一主题的内容进行修改和完善,从而实现知识的协同创作与共享。技术上,Wiki允许用户通过浏览器生成、修改HTML页面,并记录用户每次的修改结果,可以帮助用户比较同一页面不同修改版本的差异,同时还允许还原撤销修改功能。可实现这一功能的网站均被称为Wiki网站,可见,Wiki将知识创造和发布的权利交到用户手上,是典型的用户导向的信息组织方式。

Wikipedia(维基百科)是一个基于Wiki技术的多语言百科全书协作计划,也是一部用不同语言写成的网络百科全书,其目标及宗旨是为全人类提供自由的百科全书——用他们所选择的语言来书写而成的,是一个动态的、可自由访问和编辑的全球知识体。[36]除了Wiki典型的用户协同创作和共享知识外,维基百科对于词条的分类体系、词条之间的相互参见体系以及词条搜索引擎,为庞大的知识系统提供了有效的组织和检索方式,使之成为以用户为导向的新型知识创造、组织与共享系统。

(五)SNS

SNS是社会交往软件(Social Networking Software)、社会交往服务(Social Networking Service)、社会交往网站(Social Networking Sites)或社会交往系统(Social Networking System)的缩写,其核心在于社会化网络(Social Networking),[37]即个人之间的关系网络,这种基于社会网络关系系统思想的网站就是社交网站(SNS)。现在许多Web 2.0网站都属于SNS网站,如网络聊天、博客、网络社区、交友、视频分享等。

社会性网络的理论基础源于六度分隔理论和150定律(Rule Of 150),[38]是以人为节点的网状信息组织方式,节点间的关系决定了信息网络的结构。SNS的原理是以一个人为中心,由一个点发散组成与其他人的网络关系,而每个人之间的交错关系,形成了庞大的网络系统。SNS的人际关系网络有利于用户就某一主题的信息资源进行交流和共享,用户之间的关系成为信息流通的渠道,形成以信息交流为基础的社会性网络。

在SNS网站环境下,公共机构可以利用社交网站发布公共信息资源,公众可以浏览并评论这些信息,促进公共机构与公众的信息资源交流和共享。此外,SNS网站大都着重于对信息内容的重新组织和再现,公共机构使用这些SNS工具对自己发布的或公众评论的信息进行有效的组织,提高了公共信息资源的管理和使用效率。

(六)Mashup

Mashup是将网络上多个数据源的数据集合到一个整合工具中的网页应用。库尔卡尼(Kulkarni)[39]提出Mashup的定义是,使用多个数据源的信息内容以建立全新信息服务的网站或网页应用程序;Mashup使用的信息内容是通过公共结构API作为中介接口而获得的;Web Mashup=API[1]+API[2]+API[N]。可见,Mashup以网络为平台,信息内容来源于分散而独立的应用程序和技术,采用轻量方法进行整合,实现各种各样的用户需求。

面对来源广泛、海量的公共信息资源,我们可以使用Mashup将多个公共信息资源数据库整合起来,形成一个整合应用,方便用户使用。例如,新闻源(例如纽约时报、BBC或路透社)已从2002年起使用RSS和Atom之类的联合技术来发布各个主题的新闻提要。以联合技术为基础的Mashup可以聚集一名用户的提要,并将其通过Web呈现出来,创建个性化的报纸,从而满足读者独特的兴趣。

目前,提供Mashup功能的网站包括Google地图、Yahoo Pipe、ebay、Amazon等。与系统观点下的信息整合相比,Mashup具有小巧灵活、低成本和集成简单的特点,一方面轻量方法减少了应用对于硬件设备的要求和成本;另一方面,Mashup允许在客户端自定义集成信息和应用,另外,Mashup对于用户的计算机水平要求不高,这些为用户的个性化信息组织提供了条件。Mashup的数量日渐增加,成为Web 2.0环境中个性化信息组织的重要方法之一。

(七)云计算

云计算是数字信息资源组织与整合的崭新模式,也是用户需求导向的数字信息资源组织的重要模式之一。云计算(Cloud Computing)是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机和其他设备。[40]马费成对云计算的定义进行了归纳:云计算是一种通过网络提供信息资源的分布式存储和计算模式。云计算为用户提供了虚拟的资源计算方式,将多部服务器的存储和计算资源整合起来,为用户提供高速的计算能力、无限扩展的资源以及简便的操作方式。[41]云计算能够满足数字信息资源中以用户需求为导向的组织和整合方式,具体体现在:

(1)适应用户分散和活动的特性,使用户在使用计算机时不受场所、位置及终端类型和性能的限制。

(2)着眼于资源与应用,使用户在享受云服务时,不必关心服务的提供商或者服务由谁管理或控制等问题,用户真正关心的是这些服务能帮自己做什么。

(3)实现资源的共建共享,更大程度上满足用户需求。云计算在技术上具有共享成本低、弹性易扩展的特点;在服务方式上,具有统一接口、实行透明按需服务的特点;在存取方式上,用户通过互联网可以随时随地获得服务供应。

(4)配套云信息管理服务。云存储和云计算的产生伴随着海量和非结构化的信息,也相应出现了云计算的信息管理解决方案。如EMC公司推出的云存储基础架构Maui,是一套信息管理解决方案,能通过全球云存储环境,协助客户自动管理大量非结构化数据,并且可以使Web 2.0用户、互联网服务提供商、媒体、公共机构等安全地构建和实现云端信息管理。

三 Google的用户导向信息组织实例

Google是目前使用最广泛的搜索引擎。在从技术主导转变为以用户需求为导向的信息组织时代,Google为用户提供了各种有效的信息组织和导航方式,在这里,我们主要介绍Google阅读器、Google论坛、Google桌面应用[42]等几种数字信息资源的组织方式。

(一)Google阅读器

Google阅读器(Google Reader)是为网络注册用户提供的在线阅读器,通过Google阅读器,用户可以对网络RSS源进行聚合和组织。Google阅读器为用户提供自主和灵活的网络信息组织方式,使用户能够快速及时地获取所需信息:

(1)用户只需在Google阅读器中“添加订阅”处输入RSS源地址,便可将该信息源聚合到阅读器中。

(2)用户可根据个人需要和习惯自定义文件夹和标签,对各信息源进行组织。

(3)用户可以对聚合的信息进行搜索,可以对重要内容进行标记,还可以随时变更文件夹的组织以及增删RSS源。

此外,Google阅读器还提供信息公开和共享的服务,用户可以设置公开页面或将阅读器上的信息通过邮件发送给其他用户。

(二)Google论坛

Google论坛为用户提供论坛搜索、创建论坛以及搜索和加入已有论坛交流信息三大功能。用户可以同时加入Google论坛中的各类型论坛,并通过“我的论坛”进行管理。在论坛中,用户可以通过在线或电子邮件的方式阅读和回复帖子,与其他用户建立联系。用户还可以在论坛中上传文件和图片以供共享,也可以创建Wiki网页,构建小型知识库。

Google论坛作为论坛形式的SNS,为用户提供信息交流、共享和管理的平台,这一信息交流平台是以个人关系网络为基础,或广大用户共同关注的某一主题为基础。Google论坛将信息组织和SNS选择的权利赋予用户,使用户的主动性得以发挥,满足用户的个性化信息需求。

(三)Google桌面应用程序

Google桌面应用程序包括Google工具栏、Google桌面、Google浏览器等程序。Google工具栏将Google各种应用整合成工具栏中的快捷键,包括RSS订阅、书签和网站搜索等。工具栏中的搜索框可以搜索网页和应用程序。通过工具栏,用户可以通过电子邮件或博客来共享网页。此外,工具栏还提供翻译、PageRank提示、地址栏搜索以及防止弹出窗口等功能。

Google桌面包括Google网页上的桌面搜索和桌面小工具。Google桌面搜索能够对电子邮件、文件、音乐、照片、聊天记录、Gmail等进行全文搜索,并且避免了用户手动整理文件、电子邮件和书签的麻烦,使用户通过关键词等方式能够轻松地找到所需的信息。此外,Google桌面通过各种小工具和补充工具帮助用户从网上收集新信息,对计算机内的信息进行组织管理。用户可以将小工具放置在桌面的任意位置,用它来展示新邮件、天气情况、个性化资讯等。

Google浏览器能够为用户解决很多问题:(1)用户在地址栏中键入内容即可获得有关搜索结果,并可以任意访问网页。(2)用户打开新标签页时,“新标签页”会自动提供这些网站的缩略图和链接,用户可以查看完整的浏览历史记录。(3)为各种网络应用程序提供快捷方式,并允许在开始菜单、桌面和任务栏中添加这些网络应用程序的快捷方式,方便用户使用这些程序。(4)采用动态标签页,最重要的是各个标签页都在浏览器中独立运行,即使某一个应用程序崩溃了,也不会影响到其他任何进程。


[1] 马费成:《信息资源开发与管理》,电子工业出版社2009年版,第102页。

[2] 储节旺:《信息组织学》,清华大学出版社2007年版,第149—150页。

[3] 毕强:《数字信息资源建设与管理》,科学出版社2011年版,第136页。

[4] 傅荣校、叶鹰:《公共信息资源管理》,科学出版社2011年版,第128页。

[5] 毕强:《数字信息资源建设与管理》,科学出版社2011年版,第136页。

[6] 马费成、赖茂生:《信息资源管理》,高等教育出版社2006年版。

[7] 马张华:《信息组织》,清华大学出版社2008年版,第110页。

[8] 储节旺等:《信息组织学》,清华大学出版社2007年版,第103页。

[9] 马张华:《信息组织》,清华大学出版社2008年版,第231页。

[10] 马费成:《信息资源开发与管理》,电子工业大学2009年版,第128页。

[11] 马费成:《信息资源开发与管理》,电子工业大学2009年版,第129页。

[12] 冯惠玲:《政府信息资源管理》,中国人民大学出版社2006年版。

[13] 储节旺等:《信息组织学》,清华大学出版社2007年版,第237页。

[14] 储节旺等:《信息组织学》,清华大学出版社2007年版,第238页。

[15] 马费成:《数字信息资源规划、管理与利用研究》,经济科学出版社2012年版,第201页。

[16] 樊银亭、曾春先:《21世纪数字图书馆发展研究》,《重庆图情研究》2006年第1期,第4—6页。

[17] 储节旺等:《信息组织学》,清华大学出版社2007年版,第274页。

[18] 储节旺等:《信息组织学》,清华大学出版社2007年版,第275页。

[19] 毕强等:《数字资源建设与管理》,科学出版社2010年版,第154—155页。

[20] 包冬梅:《从信息组织视角解析CNKI》,《图书情报工作》2009年第53卷第10期,第107—109页。

[21] 侯丽慧:《我国机构知识库模式构建研究》,硕士学位论文,东北师范大学,2010年,第1页。

[22] Raym Crow,“The Case for Institutional Repositories:A SPARC Position Paper.Discussion Paper”,Scholarly Publication and Academic Resources Coalition ,Washington,D.C.,August 2002.

[23] Clifford A.Lynch,“Institutional Repositories:Essential Infrastructure for Scholarship in the Digital Age”,Libraries and the Academy ,Vol.3,No.2,February 2003,pp.327-336.

[24] Alma Swan,“Institutional Repositories:A briefing paper”,Open Access Scholarly Information Sourcebook ,2010.

[25] ROAR(http://roar.eprints.org/).

[26] OpenDOAR(http://www.opendoar.org/index.html).

[27] 侯丽慧:《我国机构知识库模式构建研究》,硕士学位论文,东北师范大学,2010年,第8页。

[28] DSpace(数字空间)系统是由美国麻省理工学院图书馆和美国惠普公司实验室合作研究的一个基于BSD协议的开放源代码数字存储系统。

[29] Kuang-hua Chen and Jieh Hsiang,“The unique approach to institutional repository:Practice of National Taiwan University”,The Electronic Library ,Vol.27,2009,pp.204-221.

[30] 杨薇、崔晓西:《台湾机构典藏的特点及其对建立地区性机构典藏集群的启示》,《图书馆杂志》2010年第29卷第5期,第72页。

[31] 六度分隔(Six Degrees of Separation)理论。1967年,哈佛大学的心理学教授Stanley Milgram想要描绘一个联结人与社区的人际联系网,做过一次连锁信实验,结果发现了“六度分隔”现象。简单地说就是:你和任何一个陌生人之间所间隔的人不会超过六个,也就是说,最多通过六个人你就能够认识任何一个陌生人。

[32] 马费成:《数字信息资源规划、管理与利用研究》,经济科学出版社2012年版,第389页。

[33] 图书馆2.0工作室:《图书馆2.0——设计你的服务》,北京图书馆出版社2008年版。

[34] Nielsen J,MicrocontentHow to write headlinespages titles and subject lines ,Retrieved September 1998 from http://www.nngroup.com/articles/microcontent-how-to-write-headlines-page-titles-and-subject-lines/.

[35] Dash A,Introducing the microcontent client ,Retrieved 2002 from http://dashes.com/anil/2002/11/introducing-microcontent-client.html.

[36] 维基百科(http://zh.wikipedia.org/wiki/%E7%BB%B4%E5%9F%BA%E7%99%BE%E7%A7%91)。

[37] 图书馆2.0工作室:《图书馆2.0——设计你的服务》,北京图书馆出版社2008年版。

[38] 150定律(Rule Of 150),即著名的“邓巴数字”,由英国牛津大学的人类学家罗宾·邓巴(Robin Dunbar)提出。该定律根据猿猴的智力与社交网络推断出:人类智力将允许人类拥有稳定社交网络的人数是148人,四舍五入大约是150人。

[39] Kulkarni S.,Enterprise mashupA closer look at mashup and its enterprise adoption ,Retrieved 2007 from http://www.indicthreads.com/content/conference/presentations/2007/Enterprise_Mashup_Adoption.pdf.

[40] 维基百科·云计算(http://zh.wikipedia.org/wiki/%E4%BA%91%E8%AE%A1%E7%AE%97)。

[41] 马费成:《数字信息资源规划、管理与利用研究》,经济科学出版社2012年版,第396页。

[42] 马费成:《数字信息资源规划、管理与利用研究》,经济科学出版社2012年版,第396—400页。