1.3 国内外的研究现状
1.3.1 国外研究状况
1.3.1.1 有关原生数字资源的研究
国外对于“born digital”有两种理解,一种是生于数字时代的新生代人,即digital natives,另一种是原生数字资源。以“born digital”为题名或主题,我们在谷歌学术搜索、SpecialSci数据库、ACM数据库、IEEE Xplore数据库、Inspec数据库、NSTL数据库、EBSCOhost数据库、Elsevier Science Direct Online数据库、ProQuest博硕士论文全文数据库、Springer全文数据库等中进行文献查找和阅读,发现国外学者对“原生数字资源”(born digital)和“网络原生数字资源”(network born digital)的区分并不明确,常常是“你中有我,我中有你”。因而本书在对国外文献进行梳理时将两者结合起来谈。国外文献直接描述原生数字资源和网络原生数字资源的篇幅较长,研究内容大多实践性强,多从原生数字资源的长期保存着手,同时对原生数字资源的子类型进行深入探讨。
(1)原生数字资源的长期保存
①理论研究方面
在《原生数字资源是我们文化的一部分——致力于为子孙后代保留》一文中,安德烈亚斯·鲁博等从文化角度论述了原生数字资源长期保存的意义,并论述了其在数据获取、长期保存、数据访问等方面面临的挑战,提供了原生数字资源长期保存策略,并提供了一份关于“奥地利联机存档”(AOLA)的报告。名为“UC Berkeley”的组织提出了原生数字资源保存的四个层次:“档案”“服务”“镜像”“链接”。“档案”是指网站长久存放在Berkeley服务器上并随时可以被访问的原生数字资源;“服务”的数字资源是在服务器上暂存的原生数字资源;“镜像”网站被复制到Berkeley的服务器上以备份,是在其他机构长期保存的重要原生数字资源;“链接”资源值得关注,但不属于Berkeley更高级别的搜集范围,只是Berkeley链接的原生数字资源。罗宾·泰勒则从筛选、版权、蜘蛛爬行、元数据、编目、用户界面等方面论述了国会图书馆对原生数字资料存档的问题。《原生数字资源存档》一文对英国国家图书馆的网页保存活动进行介绍,并指出图书馆对网页存档的速度远不如谷歌等搜索引擎标引网页的速度。为将搜索引擎标引网页的技术优势引入英国国家图书馆的网页存档工作中,作者建议对谷歌搜索引擎的网页标引内容进行存档。穆雷·凯瑟琳·R.和谢·因加· K.对参与“濒危网页”工程的策展人、图书馆员和档案馆员所面临的问题和挑战进行讨论,并建议图书馆和政府机构应在维护网络出版的材料方面展开合作。阿克特·雷杰斯卡等认为越来越多的知识内容是“原生数字”,为了使内容创建者对其作品进行长期保存更容易,应将保存工作纳入内容生产周期中;他们的项目采用现有的视频制作工作流程,并集成了一个保存数字内容的生命周期管理过程,该过程将促使数字内容得到长期保存。
②实践研究方面
针对数字资源的长期保存问题,国外开展了一系列著名的研究项目。在美国,2000年12月,美国国会投资1亿美元给“国家数字信息和基础设施保护计划”(NDIIPP)。该计划由国会图书馆牵头,旨在获取、保存重要数字内容并提供利用,发展与网页存档服务相关的一系列技术基础设施,建立或加强合作伙伴之间的联系。目前有130个合作伙伴参与该项目。Metaarchive为其子项目,由埃默里大学、奥本大学、乔治亚理工大学、弗吉尼亚理工大学等11所高校于2004年合作建立,旨在保存因自然灾害、人为失误和忽视而可能永远消失的文化及历史方面的重要材料。美国国会图书馆实施了Library of Congress Web Archives(LCWA)项目,该项目的电子化档案资料由学科专家就某一主题选择具有代表性的网站网页存档而成。该项目是国会图书馆为未来几代研究人员所做的评估、选择、收集、编目、保存数字材料和提供接入口等一系列工作的一部分。其早期的网页档案开发项目名称为MINER-VA。在日本,其国会图书馆的网页存档计划(WARP)项目,则是一个在版权持有者允许的情况下,对因特网资源进行有选择性的搜集以存档并保证公众可获取的计划。该项目于2002财年开始试点,并于2006财年步入实际运营阶段。在韩国,其国家图书馆的网络存档与搜索因特网资源(Online Archiving & Searching Internet Sources, OASIS)计划,用于网络数字资源的搜索和保存。OASIS系统于2005年12月开发,其目标在于为下一代国民保存数字资源,搜集并保存国家数字文化遗产,建立针对数字资源的规范化管理政策。澳大利亚国家图书馆的网页存档计划可以追溯到1996年PANDORA存档计划的实施。由于PANDORA存档计划囊括了1996年至今的各种内容,澳大利亚国家图书馆所采用的网页存档方法从一开始就是有选择性、高效而又实用的。目前,已经有超过10个图书馆组织参与到PANDORA存档计划中。奥地利也开展了奥地利在线存档(AOLA)项目,旨在建立奥地利网络空间档案,间隔一定时间对奥地利的网络空间进行快照并获取信息。这些数字保存项目构成了原生数字资源研究的重要基础。美国国家航空航天局(NASA)以及太空数据系统咨询委员会(CCSDS)还联合制定了OAIS(Open Archival Information System)标准。该标准本身并不是专门用来解决数字信息长期保存问题的特殊技术,而是着重论述了与数字信息保存相关的各种关系和框架概念,以及应对数字信息保存、处理过程中出现问题的策略。OAIS参考模型由六个功能模块组成,分别是摄入、长期存储、数据管理、系统管理、保存规划、存取。此外,还有英国的网页域名研究项目(Web Domain Research Project),法国国家图书馆的Bnf网页存档项目(Bnf Web Archives),以及挪威国家图书馆的paradigma项目,等等。
(2)原生数字资源的机构管理工作
埃莉诺·鲁宾逊和汉娜·格林对英格兰东北部地区走在原生数字资料开发前列的“七个故事”儿童书籍中心的相关工作进行介绍,分析该中心在原生数字资料的获取、保存、提供过程中所遭遇的挑战,阐明该中心如何克服困难、应对挑战,最后分析该中心使用原生数字资料的状况。克里斯·希尔顿和戴维·汤普森认为数字世界新的信息采集和信息生命周期管理给图书馆员、档案馆员和读者提出新的挑战,基于此,他们从未来计划、社会变迁——不仅仅是技术、工作日程、Fedora的数字对象库运用、新文献工具的开发、元数据的挑战、新的商业合作等方面研究探讨惠康图书馆将原生数字资料纳入其馆藏所做工作的第一步。此后,克里斯·希尔顿和戴维·汤普森又进一步评估了受欢迎图书馆在原生数字资料存档工作方面的进展,总结分析了处理原生数字资料方面的经验,提出处理原生数字资料面临的挑战。凯瑟琳·穆雷和马克·菲利普斯介绍了北德州大学图书馆的数字项目单元,从合作、最佳实践、采集开发以及经验教训等方面对原生数字资源和数字化资源的采集及提供利用的进展情况进行了探讨。此外,还有由弗吉尼亚大学牵头的针对原生数字资源典藏的“监管机构间模型”项目:该项目持续了两年(2009年10月~2011年10月),项目合作伙伴创建了一个跨机构的管理原生数字内容的框架;项目小组计划保存和处理13项值得关注的个人和组织数字馆藏,并利用基于Fedora的Hydra解决方案使得这些馆藏可用,该解决方案可以被其他组织机构安装和使用。最后,该项目形成了《AIMS白皮书》。
(3)原生数字资源应用技术
迪米特·丹尼夫和阿特罗斯·梅泽耶卡等介绍了“SHARC网站捕获存档”架构,该架构运用于网页档案质量评估和面向给定资源进行更好质量的捕捉战略调整等方面。他们在此架构下制定数据质量衡量标准,描述数据属性,并为网页的爬行抓取活动研制了一系列以质量为中心的调度管理策略。昭洋西诺、恭孔多和卡尼达等人针对考古学家对快速记录和精确记录的需求,提出用GPS、数码相机、特别是IC录音机和其他数字化工具来帮助完成考古类原生数字资源的生成,并以田野调查案例为样本进行分析说明。塔卡扎伊克以学术文章为例,提出了一个提取元数据的全面的系统,对网络文档的页眉、页脚、参考书目等进行全面检查,为该系统设计了一个支持评价、单元测试和更换单个组件的模块化的工作流程,对系统处理原生数字文档的工作流程进行优化,并使其能处理扫描图片文档,采用机器学习方法以增强对新文档布局和格式的适应能力。夏兰·翠丝指出,要想与原生数字资料为伍工作,必须掌握电脑硬件、应用软件、系统软件和固件等方面的知识和技术,基于此,他对一系列帮助实现数字文档创建和保存的技术进行了检验,并探讨了人类在与数字世界交互过程中所形成的轨迹问题。
(4)原生数字资源的子类型研究
从不同的视角,对原生数字资源可以有不同的划分,每个类别下再细分又可以有多种讨论。限于篇幅,下面仅针对所收集资料中提及的原生数字资源类别进行分类讨论。
①学科原生数字资源
艺术原生数字资源。杰基·杜丽分析原生数字艺术收藏品的意义,列举了《艺术图书馆期刊》中关注数字艺术发展的文章,着重关注对原生数字资料的管理,并进一步给出了完善艺术类数字化资料收集的建议。克里斯托弗·贝克尔等对保存互动多媒体艺术原生数字资源的试点项目进行了介绍,阐述这项收藏给数字化保存带来的挑战,通过对互动艺术作品保存案例进行分析,明确具体的保存要求。
农业原生数字资源。艾尔斯探讨了农业原生数字资源的存档与相关问题,对明尼苏达大学(UMN)的农业实验站(AES)和合作推广所这两家机构产生的出版物的原生数字资源沉积所形成的数字资源库进行了研究,为了更好地实现对数字资源库的当前访问和长期保存访问,从角色、责任和流程等方面,针对将这些出版物整合到明尼苏达大学图书馆数字保护工作中遇到的问题提出建议;讨论了内容范围、元数据、准入、版权和长期维护等事项。
文学原生数字资源。马修·基尔申鲍姆等完成的白皮书介绍了三项重要的文学原生数字资源:埃默里大学的伍德拉夫图书馆收藏的萨尔曼·拉什迪的文章、美国德州大学奥斯汀分校哈里·兰塞姆人文研究中心收藏的迈克尔·乔伊斯的文章、马里兰大学马里兰州技术研究的人文部收藏的蒂娜·拉森的文章。英格博格·玛利亚从视觉呈现、动态演化和文本组织等视角探讨以电脑为创建和传播媒体的英语数字诗,试图建立一种“文本细读”的分析方法,利用此方法提高数字诗的空间性、实践性、动态艺术性和字-图建设等,重点关注这些数字资料如何为读者呈现精心策划的诗的形式。
②不同形态的原生数字资源
原生数字图像、图纸、照片。库尔特·赫尔弗里希认为,原生数字化设计记录是最有趣和具有挑战性的数字对象,他针对具有特殊格式的电脑辅助生成2D、3D数字图像展开讨论,致力于给这些数字图像存档工作建立指南和标准,介绍了在欧洲和美国进行的三个网络项目,论述了即将开展的旨在收集、处理原生数字化设计记录的英国建筑图书馆的图纸和档案项目。库马尔在其论文中讨论原生数字“字图像”的相关事项,介绍了一种对字图像进行二值化的新的幂律转型算法,该算法提出对图像二值化进行改善以增强OCR引擎上的字图像的识别性能,算法可以自动在设定好的笔画宽度与固定阈值下选择字图像的最优伽马值,其结果优于文献报道的结果。他还在另一篇文章中针对原生数字图像进行讨论,为原生数字图像集设计了文本分割和定位算法,在图像三色板上试验了二值化算法和边缘检测。赫佛德和鲁尼恩在谈到兰花原生数字照片收藏时认为,对于许多从事数字项目的图书馆员和档案馆员来说,将原生数字对象上线是一个挑战;传统档案处理过程方法和描述标准通常不适用于原生数字媒体,这就需要新的方法和标准;随着数字化管理的新的挑战出现,图书馆员和档案馆员必须持续学习元数据标准、数字归档的最佳实践范本和资产管理技术,以确保获得和保存适宜的原生数字资源。基奥·布赖恩和沃尔夫·马克提出管理和保护原生数字照片的综合方法,他们分析了摄影师做法的改变,说明使用数字技术的摄影者与获取摄影者的原生数字图片资源的建档者之间的必要合作关系;特别关注了保存和访问图像格式的相关技术事项,之后探讨了政策问题和档案管理员的参与问题。凯瑟琳·皮尔斯认为,建筑公司在过去的30~40年中将电脑作为设计过程的一个组成部分,但只将原生数字建筑记录捐赠给保存库,基于此,凯瑟琳·皮尔斯回顾了为保存数字建筑记录所做的文献工作,分析信息专业人士在收集这些记录过程中可能发挥的作用。斯蒂芬·鲍尔和克里斯托弗·贝克尔研究了原生数字照片保存过程的质量保证问题和将原始图像转换为Adobe Digital Negative等标准格式的验证转换问题。克里斯坦因·弗伦和多尔蒂·卡里萨·科瓦尔斯基则对一个试点项目进行介绍,该项目对芝加哥建筑学院和芝加哥艺术学院存档的设计类原生数字数据的软件和流程进行了验证。
原生数字视频文件。由伊冯娜吴、南鲁宾、卡拉·凡·玛尔森带领的公共数字化电视保存项目小组分析原生数字视频文件长期保存的要求,讨论维护保存库的成本和潜在收益,他们认为,经营成本可以自我维持。该小组并不侧重于阐述可以支持长期保存的技术或者基础设施状况,而是站在公共电视长期数字化保存全局要求的高度进行讨论,不囿于为保存而保存。
③原生数字文化遗产
英奇·安格瓦尔介绍了荷兰收集和保存原生数字文化遗产的概况,认为与世界其他地方一样,荷兰文化遗产部门的工作与web2.0的现实扭打在一起,对web2.0可能带来的好处进行分析,为文化遗产组织可以采取的下一步措施提供了一些切实可行的建议。阮建海基于联合国教科文组织的保护数字文化遗产宪章的基础,围绕原生数字文化遗产的保存问题进行阐述与探讨,认为数字资源长期保存工作的重点应该是保护原生数字遗产资料。保罗·罗格桑·伯根和理查德·古田探讨了关于1999年艾姬篝火倒塌事件的原生数字史料收藏——“余烬”,介绍“余烬”的馆藏构成:电子邮件、照片、文献和围绕事件而生的网络页面,说明“余烬”这个博物馆在社会和个人投资的指引下如何由原先混乱的管理状态逐渐采用有目的地管理资源的5S模型进行管理,特别是针对电子邮件的收藏管理工作进行了讨论。马修·基尔申鲍姆、理查德·欧文登和加布里埃拉·里德文对文化数字遗产的数字取证领域进行介绍,探讨收集维护原生数字文化遗产资料与收集维护法律证据之间的利益衔接点。
此外,还有莱拉写的论文《原生数字:原始资料的新视角》等。因为文献传递的问题,没有办法获取更深入的信息。