2.2 设计目的
2.2.1 碎片化阅读与传播
在大数据时代,信息资源的传播、阅读和利用行为呈现出碎片化趋势。数据科学家收集到的以及需要分析处理的数据往往是碎片信息资源,而不是完整信息资源,如图2-6所示。因此,碎片信息资源的预处理不仅包括传统意义的数据预处理工作,而且还需要完成以下任务:
图2-6 数据的碎片化处理与碎片信息资源的预处理工作
•将每个碎片信息资源与其他相关数据碎片、背景信息、知识库或数据库关联。
•将碎片信息资源的当前版本与其历史版本关联。
•将每个碎片信息资源与其相关主体(包括人、计算机、应用、服务等)关联。
碎片信息资源的预处理工作的主要理论基础是数据连续性理论。该理论是以如何进行数据的碎片化处理、碎片信息资源的复原以及碎片信息资源的再利用为主要研究目标的新兴科学理论,其研究任务和内容可以用数据连续性保障模型来描述,如图2-7所示。数据连续性是指由数据的可关联性、可溯源性、可理解性及其内在联系组成的一整套数据保护措施,其目的是保障数据的可用性、可信性和可控性,降低数据的失用、失信和失控的风险。数据连续性理论的主要研究内容如下:
图2-7 数据连续性保障模型
•生成碎片数据。这是将原始数据(A)分解成多个碎片数据(a1,a2,…,ai,…)的过程,包括数据元的识别、抽取、转换和加载活动。在生成碎片数据时需要充分考虑后续操作的可行性和方便性。
•碎片数据的传播、演化与跟踪。每个碎片数据(如碎片数据ai)在传播过程中不断增加新的元数据(如访问次数、用户标注等),甚至其内容也会发生变化。因此,数据科学家需要掌握跟踪和分析碎片数据的方法,如版本控制、元数据管理、数据溯源和数据封装等。
•碎片数据的关联。碎片数据预处理工作的主要难点之一,即将每个碎片数据与其他相关碎片数据、历史版本数据、相关主体及其他数据集(如知识库、规则库等)进行关联,以便进行碎片数据的可信度评估以及提升后续数据处理活动的效率与效果。目前,碎片数据的关联方法可以借鉴关联数据、语义Web、数据映射和数据匹配等多种理论。
•碎片信息资源的分析、集成与利用。在碎片数据的关联处理基础上,进一步进行数据分析、集成和利用工作。