大数据分析在CASHL资源共建共享中的应用
摘要:
图书馆也拥有自己的大数据。本文概述了中国高校人文社会科学文献中心(CASHL)的发展,介绍了CASHL基于馆藏分析理论、资源与服务数据的大数据分析方法,论述了CASHL在此基础上构建的高校图书馆人文社会科学文献资源的宏观发展、共建共享之路。
关键词:
CASHL大数据 馆藏分析 资源共建共享
大数据时代,大数据分析和挖掘方法在各个领域得到不同程度的应用。在图书馆领域,图书馆员也在努力学会使用这样的方法,不断从各个信息系统中提取、整合有价值的数据,深度挖掘,从中获取信息,又将信息提炼为知识,从而为图书馆资源建设和服务的发展提供方向性引导和日常工作的支撑。
图书馆所拥有的大数据,通常包括:书目数据、馆藏数据、文献知识数据、用户数据、用户行为数据、服务数据、内部业务数据等。这些数据经过分析、挖掘,可以用于馆藏分析、资源整合、用户行为分析、用户需求挖掘、知识挖掘、建立新的业务模型等各个方面。从体量上讲,单个图书馆拥有的数据是有限的,未必能说明某种现状、趋势、行为,因而进一步提炼出知识,或用于决策支持的作用也有限。但如果把多个图书馆的数据汇总,数据量达到一定规模,则可以满足大数据“4V”,即数量大(volume)、类型多(variety)、速度快(velocity)、有价值(value)之要求,进行深度分析挖掘与应用,发挥大数据之作用。
教育部中国高校人文社会科学文献中心(China Academic Social Sciences and Humanities Library, CASHL, http://www.cashl.edu.cn/portal/,访问时间:2016年12月30日),是为国家人文社会科学教学科研发展提供服务的公共平台,也是高校图书馆联合共建共享的三大公共体系之一。在最近几年的发展中,CASHL通过自身的积累以及CALIS、CASHL等多个途径,获取了国内外高校图书馆馆藏与服务若干方面的大数据,并进行整合与挖掘分析,为自身发展决策提供了强有力的支持,为进一步提供服务奠定了基础。
本文将通过CASHL的资源建设发展案例,说明大数据分析方法在图书馆资源共建共享中的应用。其中的部分研究成果来自于CASHL的以下合作研究项目:“高校人文社科外文文献资源的布局与保障研究”项目、“中国周边国家文献的国家保障研究”项目、CASHL“基于馆际互借与文献传递业务数据挖掘的读者行为模式研究”项目等;合作单位包括北京大学图书馆、复旦大学图书馆、武汉大学图书馆、厦门大学图书馆、中山大学图书馆、北京外国语大学图书馆、浙江大学图书馆、东北师范大学图书馆等。
一CASHL及其发展现状
CASHL是由两个共建共享子项目组成的。第一个项目,是1982年“科教兴国”大背景下,由国务院批准、教育部执行的“高校文科图书引进专款项目”(简称“文专项目”);第二个项目,是2002年“繁荣哲学社会科学”的国家战略下启动建设、2004年正式发布服务的“中国高校人文社会科学文献中心”(CASHL)。2006年,“文专项目”与CASHL整合,对外统称为CASHL。此后,CASHL把“建设国家人文社会科学信息资源平台,为国家人文社会科学研究提供最终保障”作为最终发展目标,贯彻“以资源为基础、以服务为根本”的发展方针、“整体建设、分布服务、共知共享、讲求效益”的发展策略,组织国内具有学科、资源和服务优势的高等学校图书馆,有计划、有系统地整体引进国外人文社会科学文献资源,为人文社会科学研究提供了大量文献信息服务。
经过多年的建设,到目前为止,CASHL已经建成由全国中心(北京大学、复旦大学)、区域中心(武汉大学、吉林大学、中山大学、南京大学、北京师范大学、兰州大学)、学科中心(东北师范大学、华东师范大学、南开大学、山东大学、清华大学、厦门大学、浙江大学、中国人民大学)、服务馆、合作机构组成的服务体系(见图1),为全国800余所高校、上千万师生服务。
图1 CASHL服务体系架构
在资源发展方面,CASHL引领、组织了高校人文社科文献资源建设,带动了核心资源的发展。到目前为止,累计建设有200万种外文图书、可供服务的核心外文期刊和重要外文期刊2.6万余种、2860种电子期刊以及41万种电子图书,国内唯一拥有的大型特藏文献有187种,并有一定数量的非通用语种资源。
在服务方面,CASHL构建了服务体系,为全国人文社科用户提供高品质文献信息。目前可以提供书目查询、期刊目次检索、图书借阅、原文传递、代查代检、全文下载、学科深度咨询、参考咨询、特藏提供等服务内容,近年来还逐渐发展出了移动服务、统一认证、本地嵌入等新型服务,以及专为图书馆员提供的“西部馆员交流”“馆员国际出版支持”等服务。文献服务量累计全文下载2400万篇,原文传递120万次,图书借阅2.7万种(2010年至今),平均满足率可达到95%。
经过多年建设,CASHL的建设取得了如下成果。
(1)建立了一套覆盖全国的、完整的“共建共享”机制,其共建表现为增强了国家投入经费的建设效益,减少了不必要的重复建设,扩大了文献保障面。其共享表现为对全国高校起到了正面引导作用,在国家投入购买资源之外,各高校图书馆将自有外文图书/期刊也贡献出来为全国服务,盘活了高校的整体文献资源和服务。
(2)站在国家百年大计的高度,建立了中国最大、最全面的人文社科文献保障体系。CASHL依托有学科优势的高校开展文献保障,提升了高校学科建设和人才培养,开拓了教学科研人员的国际视野;推动了国家人文社科研究的整体国际化水平,提高了国家的软实力。
(3)为国家多个归国人才引进计划提供了强有力的基础支撑。外文文献的多少,是影响海外人才决定去留的关键因素之一,CASHL项目引进的外文文献起到了基础支撑的作用。
(4)保障了全国人文社科教学科研人员获取资源的公平性和公正性。全国范围内的教学科研人员,都能平等地通过CASHL平台获得资源。CASHL已经成为我国教学科研人员高度依赖、不可或缺的资源获取渠道,已经成为全国高校人文社科领域具有影响力的品牌服务。
二 基于馆藏分析理论的CASHL大数据应用案例
人文社会科学是“文献倚赖型”学科,因此CASHL发展必然是以文献资源为建设基础的。作为共建共享体系,CASHL的资源建设不同于单个图书馆,既需要宏观规划,也需要微观精细发展,因此调研分析是前提,而大数据的整合分析挖掘在其中是不可或缺的方法。
2.1 馆藏分析理论及其模型
馆藏分析(collection analysis)是指通过搜集整理大量图书馆的馆藏数据、服务数据,对其进行数量、学科、语种、出版年、区域、主题以及借阅状况等多方面的数据统计与比较分析,归纳出图书馆的馆藏发展趋势和规律,用于指导馆藏建设、优化与完善。
在馆藏分析理论中,常用到以下几个概念模型。
(1)文献收藏率,是指一个国家、地区或机构(如图书馆或者共建共享组织)文献收藏的完备程度,它是一个比率,与某个国家或地区的文献出版种数是分不开的。其公式为
(2)文献缺藏率,与文献收藏率相关。它是指一个国家、地区或机构文献收藏的缺失程度,它是一个比率,与某个国家或地区的文献出版种数是分不开的。其公式为
上述两个指标中的“一定时期内文献出版种数”主要强调的是学术出版物,其值也主要以同一时期内重要学术机构(如高校图书馆)收藏的数量为准。
(3)文献保障率,是指一个国家、地区或机构(如图书馆或者共建共享组织)供给文献,满足文献情报需求以支持经济建设、社会发展和科学研究的能力。它是一个比率,是与某个国家、地区或机构的读者使用文献情况分不开的。与传统的文献保障率概念不同,现在的文献保障率更强调文献保障的有效性,强调用户的使用。其公式为
举例说,A用户在进行自己的科研工作时,使用了100种图书,而B机构收藏有其中的70种,假定A用户使用了B机构收藏的全部70种图书,则在这个科研项目中:
B机构的文献保障率=70种/100种×100%=70%
(4)文献利用率,是指一个国家、地区或者机构收藏文献的被利用情况。它也是一个比率,是衡量图书馆馆藏质量高低的一个重要标志,也是图书馆服务读者、发挥职能的标尺。其公式为
2.2 CASHL基于馆藏分析模型的大数据应用案例
CASHL在资源建设中,应用上述馆藏分析理论和模型,对国内高校图书馆的外文文科文献整体收藏情况做了全面分析,并依据分析结论采取了多项发展措施。
在进行大数据分析之前,CASHL收集了出版物、图书馆目录和服务方面的上千万条数据,这些数据分别来自:国外各出版商出版书目数据库;OCLC WorldCat数据库;国外部分一流高校书目数据库(哈佛大学、牛津大学、哥伦比亚大学、耶鲁大学、剑桥大学、普林斯顿大学);中国台湾地区学术研究机构订购西文纸本期刊资料库;中国高等教育文献保障系统(CALIS)联合目录数据库;中国高校人文社会科学文献中心(CASHL)联合目录数据库;全国高校图书馆进口报刊预订联合目录;国内部分高校书目数据库;各类引文数据库(如SSCI、A&HCI、CPCI-SSH、SCI、CPCI-S);用户发表成果目录;等等。
以下是应用这些数据进行馆藏分析的案例。
(1)关于图书文献的收藏和分析。
通过以下模型来分析国内高校图书馆的文献收藏情况。
其中,在前文所述概念模型中“一定时期内国外文献出版总量”被“一定时期内国外高校图书馆文献收藏总量”代替。其中的原因,对高校图书馆的馆藏分析来说,不能笼统地以“文献出版总量”这个概念为基础,而主要应该考虑“学术出版物出版总量”,但后者的数据获取并不容易,并且学术与非学术也很难界定,因此以国外主要高校图书馆的收藏总量作为替代性参考指标,如表1所示。
表1 国内高校与国外一流高校人文社科图书收藏对比分析
表1中,“常用图书”是指哈佛大学、耶鲁大学和牛津大学任何一所高校收藏的图书;“核心图书”是指哈佛大学、耶鲁大学和牛津大学三所国外一流高校均收藏的图书。“缺藏率”按国内高校图书馆和国外三校图书馆的收藏量比较得出,未考虑减除二者当中不重复的品种。“学科平均收藏”是按人文社会科学18个学科计算的。
数据分析表明,1950~2000年,国内高校图书馆的图书文献收藏率只有19.1%,缺藏率高达81%。经过国家“文专项目”多年的投入之后有所改善,收藏率提升至30%左右,缺藏率逐步降低。
(2)关于期刊与数字文献的收藏与分析。
通过以下模型来分析国内高校图书馆的期刊文献收藏情况。分析结果如表2、图1所示。
期刊文献收藏率=×100%
数字文献收藏率=×100%
表2 大陆高校与境外印刷版期刊出版情况、收藏情况学科对比
注:据2009年数据,其中中国台湾地区数据为2004年,含同时有电子版的期刊。
资料来源:武桂云、龙向洋、金环:《高校人文社科外文印刷版期刊布局及保障初探》,载《图书情报工作》2010年第7期,第6~9页。
依据表2中的数据,到2009年,我国高校收藏的文科印刷版期刊达到8749种(含同时有电子版的期刊3539种)、纯电子版期刊(e-only,因为品种不稳定、经常变化等原因,此统计不包括集成商数据库的电子期刊)为10904种,总量达到19653种,与欧美的哈佛大学、普林斯顿大学、斯坦福大学、耶鲁大学、牛津大学和剑桥大学收藏的54214种期刊比较,收藏率可达30%,缺藏率为63.75%。
在19653种已收藏期刊中,包含约90%的国外核心期刊,说明随着国家投入的增加(如CASHL项目的实施),核心期刊收藏较全,期刊质量还是不错的。
数字文献的收藏情况和分析如图1所示,结论显而易见。不过近年来随着国内高校图书馆在数字文献方面的投入越来越多,这个差距也越来越小。
图1 国内外重点高校文科数字学术资源收藏状况对比(据2009~2010年数据)
资料来源:李浩凌、廖三三:《高校人文社科外文电子资源的布局与保障研究》,载《图书情报工作》2010年第7期,第18~22页。
(3)关于文献保障率的情况和分析。
文献保障率与前文所述的文献收藏率、文献缺藏率的不同,在于后者是从供给端来进行分析,主观性更强一些;而文献保障率则是从用户端来进行,通过分析用户使用情况来观察文献保障程度,客观性比较强。
在这项数据分析中,采用了如下模型。
在这项工作中,北京大学图书馆、武汉大学图书馆于2011年对本校用户进行了文献保障率的抽样调查——选取经济学、法学、历史学、哲学四个重点学科教师、博硕士研究生2000~2010年发表的论文,将其参考文献汇总,通过对参考文献的图书馆收藏情况进行分析,得出两个图书馆及CASHL联合体对用户所使用参考文献的保障情况,即国内高校文科外文文献的保障率,结果如表3所示。毋庸置疑,由于这两个图书馆的收藏丰富,这个抽样调查的结果好于国内高校图书馆的平均水平。
在表3中,①图书的收藏量按出版物品种数量计算,其保障率依“可提供图书品种数量/用户引文涉及图书品种数量”计算;②期刊的收藏量依引文数量计算(考虑到期刊有分年分卷期的收藏情况,未依出版物品种计算),其保障率依“可提供期刊文献数量/用户已发表文献的引文数量”计算;③可提供图书或者期刊的数量以本馆收藏或者CASHL联合收藏为准,不含通过馆际互借/文献传递等方式从其他途径获取的文献;④“本馆收藏量”指北京大学或武汉大学图书馆的收藏情况,CASHL收藏量则依据CASHL联合目录计算。
表3 国内高校不同学科的外文书刊文献保障率(2000~2010年)
(4)关于文献利用率的情况和分析。
文献保障率的统计分析,是基于用户利用参考文献的情况,能够说明文献对用户科研的保障程度,但不能说明已经收藏的文献到底利用情况如何。单体图书馆,通常会利用读者对文献的借阅统计来分析其文献利用率;CASHL作为联合体,则主要依靠其馆际互借和文献传递的统计数据来开展这方面工作。
CASHL曾经对其上百万的全部期刊文献传递数据进行了统计分析,将其中文献传递所使用过的期刊进行了品种、学科、核心期刊/非核心期刊、机构等方面的筛选、合并、统计,从而掌握了CASHL期刊的文献利用率,得出的结论不仅可用于期刊订购的重要参考,对资源建设、服务发展更是大有裨益。其分析模型为
图2和图3是分析结论的一部分。
图2 核心/非核心期刊的利用率分析
图3 不同学科期刊的利用率分析
3.数据分析的基本结论
通过以上的数据分析,CASHL对其资源发展现状得出了以下基本结论。
(1)经过国家多年的投入、各高校图书馆持续不断的努力建设,已经积累了一定数量的外文文献资源。但从总体来看,由于20世纪50年代以后经济和政治等诸多因素,文献资源建设的缺口较大,无法跟上人文社会科学研究发展的脚步,提供高水平的保障。
(2)外文文献资源有一定程度的收藏,但存在结构性缺失、可持续发展不足的问题。其中,外文图书略有积累,总体缺藏率高;期刊收藏质量较好,但品种不足,可持续发展能力不足;数字出版物综合性品种收藏较好,专业特色资源存在较大差距。
(3)外文文献的保障程度偏低,但联合保障效益渐显。
(4)文献资源的规模化服务能力不足,造成已购文献的效益不能充分发挥。
(5)信息基础设施不足,无法整合各类型资源,实现更大范围内的共享服务。
三 宏观建设是CASHL资源发展之道
文献资源的宏观建设,是指一个地区、一个国家乃至国际众多文献信息机构对现有文献资源的规划和协作、协调收集和收藏,形成整体资源,即从宏观上制定目标和规划,进行协调和分工,以指导各文献情报机构的文献收集工作,突出各自优势,形成比较完备的收藏,并将其作为集体的资源共享,从而建立起一定范围内的文献资源保障体制。
CASHL文献资源的宏观建设,其基本原则是“整体建设、科学布局、分工合作、共建共享”,即把各高校图书馆的人文社科文献资源看作一个整体,由多个资源和服务基础较好的高校图书馆分工负责,通过对不同学科、不同类型、不同载体、不同语种文献的合理布局规划,统筹安排收藏,组织协调服务,同时建立特色馆藏,发挥各自特长,形成高校人文社科外文文献的联合保障体系。
通过大数据分析,CASHL确定了其文献宏观建设措施,近年来已经在逐步进行和不断完善之中,简述如下。
3.1 从整体和长远发展制定目标
以高校人文社科教学科研的长远发展为基础,以达到世界一流的人文社会科学文献保障水平为核心,制定文献资源的整体建设目标:完整收藏全球出版人文社会科学外文学术文献,全面整合国内高校人文社科领域研究成果,充分利用国家增量投入以及各高校和科研机构的存量文献资源,逐步构建大规模、有特色的文献资源战略体系,针对人文社会科学特点开发先进、实用的文献信息服务系统,形成强大、高效、全方位的公共服务能力,促进和推动全国人文社会科学文献信息资源共享,为我国人文社会科学科研教学提供全面和最终的文献信息资源保障,并努力打造中国人文社会科学走向世界的成果平台。
3.2 开展文献资源的宏观布局
开展文献资源的宏观布局,即建立科学的联合保障和学科分工协调机制。CASHL全国中心、区域中心、学科中心等充分发挥其在人文社科外文资源上的优势和特色,按照文献类型、学科、地区等科学分工,并由CASHL管理中心居中协调,避免资源重复建设,同时具备本地区、本学科和本校特色,在联合保障中彼此互为补充,形成完整的资源体系。
3.3 提高资源的收藏率和保障水平
争取更多资金投入,印本书刊的收藏要尽量按学科、类型分工的协调采购为主,避免重复建设。电子资源与印本书刊引进工作要加强协调,优势互补,取长补短,保障资源布局平衡、结构合理、品种多样等因素并重。同时要兼顾长期拥有和有效利用等多方面保障功能。电子资源亦可以采用多种引进模式,多途径协调,对重要而适用面广的资源,可统一购买高校或部分高校的使用权限,或者采用各成员馆购买一部分资源、集团内各高校共享的模式;对适用面窄、价格昂贵的资源,可以采取支持少数学校购买、面向其他高校用户开展借阅服务的模式,以使资源发挥最大效益。
建立符合人文社会科学特点的收藏体系,即符合全学科保障、文献出版时间跨度长、收藏语种和地域全面、资源类型完整、内容深入和交叉等要求的宏观收藏体系,并能随用户信息行为的发展,具备数字化、自助化、移动化、互动性、个性化等特点。例如:
(1)在文献类型方面,图书是文科教学科研最为依赖的文献,一方面通过协调采购增加新书引进品种,同时通过在国外实体书店、网上书店收购二手书、使用按需出版(POD)服务、引进电子图书、购买重印图书,以及个人/学术机构捐赠等方法,开展图书回溯建设,采购具有回溯收藏价值的1950~2000年出版图书,以保证文科外文图书保障体系的学术完整性。
(2)在学科的选择上,要遵循学科平等,保证学科门类的覆盖面,既要保证重点和热门专业,也应保持学科间的相对平衡。此外,要视用户需求、出版情况以及收藏缺藏情况,对各学科的投入力度进行协调。
(3)在语种方面,英文文献是出版量最大也是我国读者最常用的外文文献,其使用量远大于其他外文语种,文献建设应以英文文献为重点,同时根据国家战略发展需要,有区别地兼顾其他非通用语种文献,同时逐年增加区域文献。
要突出重点,逐步扩大建设。要重视资源的国家安全和长期保存,建立长期保存机制,保障文献资源安全,真正实现“国家最终保障”的总体目标。
3.4 建立不同类型和学科文献的具体保障目标
图书的文献保障率要提高一倍,达到世界一流大学的平均保障率70%左右。其中新出版英文图书,年平均收藏率争取达到欧美学术出版物的90%以上;新出版其他语种图书,年平均收藏率争取达到全球学术出版物的30%以上。1950~2000年的西文图书旧书补藏,收藏总量要比目前存量增加一倍。
争取收藏全部重要期刊,达到90%的平均保障水平(其中英文期刊应达到95%)。
电子资源,要大量购买使用权和可供长期保存的回溯数据,核心电子资源收藏率达到90%左右。
加强大型特藏建设,包括档案原始资料、大套文献、期刊合订集、缩微资料、数据库等形式,做到“有出版即有收藏”。
加强周边国家文献资源建设,建立专门的小语种文献数据库;根据国家发展战略,加强美洲研究、欧洲研究、亚洲研究等区域学,以及民族学等跨学科领域研究的文献资源建设,年收藏率争取达到80%左右。
以上介绍了CASHL基于馆藏分析理论、资源与服务数据的大数据分析方法,概括了CASHL在此基础上构建的高校图书馆人文社会科学文献资源的宏观发展、共建共享之路。文中的各项研究开始于2009年,自彼时至今,成果不断完成并发表,并成功用于指导CASHL的资源与服务建设,效益渐现,在此一并致谢所有的合作团队与个人。