第二节 空间数据的质量分析与控制
空间数据是GIS最基本和最重要的组成部分,也是一个GIS项目中成本比重最大的部分。数据质量的好坏,关系到分析过程的效率高低,及至影响着系统应用分析结果的可靠程度和系统应用目标的真正实现。因此,对数据质量的评价与控制就显得尤为重要。
一、空间数据质量概述
所谓空间数据质量是指数据对特定用途的分析和操作的适用程度。在论及数据质量的好坏时,人们常常使用误差或不确定性的概念,数据质量问题在很大程度上可以看作数据误差问题。而描述误差最常用的概念是准确度和精密度,对于以地图或遥感图像表达的空间数据,数据质量还与空间分辨率或制图比例尺有关。
空间数据质量在很大程度上可以看作是数据的误差问题,而与数据误差相联系的基本概念包括如下内容。
1.误差(Error)
简而言之,误差表示数据与其真值之间的差异。误差的概念是完全基于数据而言的,没有包含统计模型在内,从某种程度上讲,它只取决于量测值,因为真值是确定的。如测量地面某点高程为1002.4m,而其真值为1001.3m,则该数据误差为0.9m。
误差与不确定性有着不同的含义。在上例中,认为量测值(1002.4m)与误差(0.9m)都是确定的。也就是说,存在误差,但不存在不确定性。不确定性指的是“未知或未完全知”,因此,不确定性是基于统计的推理、预测。这样的预测即针对未知的真值,也针对未知的误差。
2.准确度(Accuracy)
准确度是量测值与真值之间的接近程度。它可以用误差来衡量。仍以前问所述某点高程为例,如果以更先进量测方式测得其值为1002.1m,则此量测方式比前一种方式更为准确,亦即其准确度更高。
3.偏差(Bias)
与误差不同,偏差基于一个面向全体量测值的统计模型,通常以平均误差来描述。
4.精密度(Precision)
精密度指在对某个量的多次量测中,各量测值之间的离散程度。可以看出,精密度的实质在于它对数据准确度的影响,同时在很多情况下,它可以通过准确度而得到体现,故常把两者结合在一起称为精确度,简称精度。精度通常表示成一个统计值,它基于一组重复的监测值,如样本平均值的标准差。
5.不确定性(uncertainty)
不确定性是指对真值的认知或肯定的程度,是更广泛意义上的误差,包含系统误差、偶然误差、粗差、可度量和不可度量误差、数据的不完整性、概念的模糊性等。在GIS中,用于进行空间分析的空间数据,其真值一般无从量测,空间分析模型往往是在对自然现象认识的基础上建立的,因而空间数据和空间分析中倾向于采用不确定性来描述数据和分析结果的质量。
此外,GIS数据的规范化和标准化直接影响地理信息的共享,而地理信息共享又直接影响到GIS的经济效益和社会效益。为了解决利用已有数据资源,并为今后数据共享创造条件,各国都在努力开展标准化研究工作。国家制定的规范和标准是信息资源共享的基础,不但有利于国内信息交流,也有利于国际信息交流。但是目前空间数据的标准化仍然存在不少问题,还缺乏统一的标准和规范,各部门间也缺乏必要的联系和协调,对空间数据科学的分类和统计缺乏严格的定义,直接导致建立的各类信息系统之间数据杂乱,难以相互利用,信息得不到有效的交流和共享。为使数据库和信息系统能向各级政府和部门提供更好的信息服务,实现数据共享,数据的规范化和标准化刻不容缓。
二、空间数据质量评价
(一)数据质量的评价指标
数据质量是数据整体性能的综合体现,而空间数据质量标准是生产、应用和评价空间数据的依据。为了描述空间数据质量,许多国际组织和国家都制定了相应的空间数据质量标准和指标(表3-1)。空间数据质量指标的建立必须考虑空间过程和现象的认知、表达、处理、再现等全过程。
表3-1 不同标准中的质量指标和质量参数
从实用的角度来讨论空间数据质量,空间数据质量指标应包括以下几个方面:
(1)数据情况说明(Source):要求对地理数据的来源、数据内容及其处理过程等做出准确、全面和详尽的说明。
(2)完备性:要素、要素属性和要素关系的存在和缺失。完备性包括两个方面的具体指标:①多余,数据集中多余的数据;②遗漏,数据集中缺少的数据。
(3)逻辑一致性:对数据结构、属性及关系的逻辑规则的依附度(数据结果可以是概念上的、逻辑上的或物理上的),包括四个具体指标:①概念一致性,对概念模式规则的符合情况;②值域一致性,值对值域的符合情况;③格式一致性,数据存储同数据集的物理结构匹配程度;④拓扑一致性,数据集拓扑特征编码的准确度。
(4)位置准确度:要素位置的准确度,包括三个具体指标:①绝对或客观精度,坐标值与可以接受或真实值的接近程度;②相对或内在精度,数据集中要素的相对位置和其可以接受或真实的相对位置的接近程度;③格网数据位置精度,格网数据位置值同可以接受或真实值的接近程度。
(5)时间准确度:要素时间属性和时间关系的准确度,包括三个具体指标:①时间量测准确度,时间参照的正确性(时间量测误差报告);②时间一致性,事件时间排序或时间次序的正确性;③时间有效性,时间上数据的有效性。
(6)专题准确度:定量属性的准确度;定性属性的正确性;要素的分类分级以及其他关系。包括四个具体指标:①分类分级正确性,要素被划分的类别或等级,或者它们的属性与论域(例如,地表真值或参考数据集)的比较;②非定量属性准确度,非定量属性的正确性;③定量属性准确度,定量属性的准确度;④对于任意数据质量指标可以根据需要建立其他的具体指标。
(7)数据相容性(Compatibility):指多个来源的数据在同一个应用中使用的吻合和难易程度。一般来说,比例尺的不同、数据分类体系和标准的不同都会带来数据不相容问题。
(8)数据的可得性(Accessibility):指获取或使用数据的容易程度。保密的数据按其保密等级限制了使用者获得所需的数据,而公开的数据可能由于价格太高而不能获得,只能另找数据采集途径,降低了数据的质量并造成浪费。
(二)数据质量的评价方法
1.GIS数据质量的评价方法
空间数据质量评价方法分直接评价和间接评价两种。直接评价方法是对数据集通过全面检测或抽样检测方式进行评价的方法,又称验收度量。间接评价方法是对数据的来源和质量、生产方法等间接信息进行数据集质量评价的方法,又称预估度量。这两种方法本质区别是面向的对象不同,直接评价方法面对的是生产出的数据集,而间接评价方法则面对的是一些间接信息,只能通过误差传播的原理,根据间接信息估算出最终成品数据集的质量。
直接评价法又分为内部和外部两种。内部直接评价方法要求对所有数据仅在其内部对数据集进行评价。例如在属于拓扑结构的数据集中,为边界闭合的拓扑一致性做的逻辑一致性测试所需要的所有信息。外部直接评价法要求参考外部数据对数据集测试。例如对数据集中道路名称做完整性测试需要另外的道路名称原始性资料。
间接评价法是一种基于外部知识的数据集质量评价方法。外部知识可包括但不限定数据质量综述元素和其他用来生产数据集的数据集或数据的质量报告。本方法只是推荐性的,仅在直接评价方法不能使用时使用。在下列几种情况下,间接评价法是有效的:使用信息中记录了数据集的用法,数据日志信息记录了有关数据集生产和历史的信息,用途信息描述了数据集生产的用途。
2.GIS数据质量常用评价方法
(1)敏感度分析法。一般而言,精确确定GIS数据的实际误差非常困难。为了从理论上了解输出结果如何随输入数据的变化而变化,可以通过人为地在输入数据中加上扰动值来检验输出结果对这些扰动值的敏感程度。然后根据适合度分析,由置信域来衡量由输入数据的误差所引起的输出数据的变化。
为了确定置信域,需要进行地理敏感度测试,以便发现由输入数据的变化引起输出数据变化的程度,即敏感度。这种研究方法得到的并不是输出结果的真实误差,而是输出结果的变化范围。对于某些难以确定实际误差的情况,这种方法是行之有效的。
在GIS中,敏感度检验一般有以下几种:地理敏感度、属性敏感度、面积敏感度、多边形敏感度、增删图层敏感度等。敏感度分析法是一种间接测定GIS产品可靠性的方法。
(2)尺度不变空间分析法。地理数据的分析结果应与所采用的空间坐标系统无关,即为尺度不变空间分析,包括比例不变和平移不变。尺度不变是数理统计中常用的一个准则,一方面在能保证用不同的方法能得到一致的结果,另一方面又可在同一尺度下合理地衡量估值的精度。也就是说,尺度不变空间分析法使GIS的空间分析结果与空间位置的参考系无关,以防止由基准问题而引起分析结果的变化。
(3)Monte Carlo实验仿真。由于GIS的数据来源繁多,种类复杂,既有描述空间拓扑关系的几何数据,又有描述空间物体内涵的属性数据。对于属性数据的精度往往只能用打分或不确定度来表示。对于不同的用户,由于专业领域的限制和需要,数据可靠性的评价标准并不相同。因此,想用一个简单的、固定不变的统计模型来描述GIS的误差规律似乎是不可能的。在对所研究问题的背景不十分了解的情况下,Monte Carlo实验仿真是一种有效的方法。
Monte Carlo实验仿真首先根据经验对数据误差的种类和分布模式进行假设,然后利用计算机进行模拟试验,将所得结果与实际结果进行比较,找出与实际结果最接近的模型。对于某些无法用数学公式描述的过程,用这种方法可以得到实用公式,也可检验理论研究的正确性。
(4)空间滤波。获取空间数据的方法可能是不同的,既可以采用连续方式采集,也可采用离散方式采集。这些数据采集的过程可以看成是随机采样,其中包含倾向性部分和随机性部分。前者代表所采集物体的实际信息,而后者是由观测噪声引起的。
空间滤波可分为高通滤波和低通滤波。高通滤波是从含有噪声的数据中分离出噪声信息,低通滤波是从含有噪声的数据中提取信号。例如经高通滤波后可得到一随机噪声场,然后用随机过程理论等方法求得数据的误差。
对GIS数据质量的研究,传统的概率论和数理统计是其最基本的理论基础,同时还需要信息论、模糊逻辑、人工智能、数学规划、随机过程、分形几何等理论与方法的支持。
三、空间数据质量问题的来源
空间数据质量问题实际上是伴随着数据的采集、处理和应用过程而产生并表现出来的。根据这一过程,可以把空间数据质量问题划分为三个阶段:第一阶段是实地空间数据的测量、采集和制图;第二阶段是空间数据库的建库,包括数字化、数据录入和数据转换;第三阶段是空间数据的操作、处理、分析、输出和应用。每个阶段都包含前一阶段所带来的原有误差,并增加了本阶段所引入的新的误差因素(表3-2)。
表3-2 空间数据的部分误差来源
1.空间现象自身存在的复杂性、不稳定性和模糊性
空间数据质量问题首先来源于空间事物或现象自身存在的复杂性、不稳定性和模糊性,主要包括空间位置、分布和过程、专题和属性及发生时间区段上的不确定性、不稳定性或模糊性,如某种土壤类型边界划分的模糊性,金属矿体与围岩边界的不确定性,社会经济现象的复杂性等。因此,空间数据存在质量问题是不可避免的。
2.空间数据的获取和表达所产生的质量问题
由于原始数据的获取产生空间数据质量问题大体上可以归结为三方面:其一是人们对空间对象的特征、变量概念认识上的不确切或不一致,必然导致获取、量测、记录数据上的差异、不准确。例如,对一些地理、地质、环境生态现象认识上的模糊性或不一致性;其二是测量仪器、手段和方法的不完善、不精确以及观测时外界条件的影响,造成测量成果的误差或偏差,例如GPS定位或导航产生的误差、经纬仪测量角度产生的误差,遥感图像数据在地物几何位置和光谱特征上的偏差等;第三方面,自然界和社会经济现象中事物过程的类型和特征千差万别,它们在空间和时间上的表现形式或者为连续性、或者为离散性,或者两者兼有,但是目前GIS对它们的描述都是采用点、线、面、体或各种符号的图形要素形式,这里必然存在图形表达上的合理性问题和准确性问题。此外,多数空间数据都记录在纸质或聚酯材料地图上,这类物理介质会产生变形、磨损,导致图形要素的变化、差错。
以上两大因素产生的空间数据质量问题可以归纳为两种类型:第一类可称为明显的质量问题,包括:①数据记录的年代、日期的不确切,不齐全,或过于陈旧;②数据的空间覆盖范围(统计区域)偏小或偏离;③地图比例尺偏小或不齐全;④观测点、数据点密度不够;⑤数据格式问题;⑥数据的可访问性或可达性问题,由于国家或地区之间、部门之间的保密或阻隔,许多数据无法获得。第二类属于观测值、量测值的精度问题,来源于原始观测、记录值的误差,包括粗差、系统误差。
3.空间数据处理过程中产生的空间数据质量问题
在空间数据处理过程中,很多操作都会带来误差,降低空间数据的质量。
(1)地图数字化和扫描后的矢量化处理。数字化过程采点的位置精度、空间分辨率、属性赋值等都可能出现误差。
(2)投影变换。地图投影是三维地球椭球面或球面到二维平面的拓扑变换,在不同投影方式下,地理特征的位置、面积和方向的表达会有差异。确定空间数据投影类型的主要依据是:数据的用途、数据的专题内容、比例尺大小、数据表达空间区域的形状和大小、所处空间的地理位置及其他特殊要求。
(3)数据格式转换。在矢量格式和栅格格式之间的数据格式转换中,数据所表达的空间特征的位置具有差异性。
(4)数据抽象。在数据发生比例尺变换时,对数据进行的聚类、归并、合并等操作时产生的误差,它包括知识性误差(例如,操作符合地学规律的程度)和数据所表达的空间特征位置的变化误差。
(5)建立拓扑关系。拓扑过程中伴随有数据所表达的空间特征的位置坐标的变化。
(6)与主控数据层的匹配。一个数据库中,常存贮同一地区的多个数据层,为保证各数据层之间在空间位置上的协调性,一般建立一个主控数据层以控制其他数据层的边界和控制点。在与主控数据层匹配的过程中会存在空间位移,导致误差的出现。
(7)数据叠加操作和更新。数据在进行叠加运算以及数据更新时,会产生空间位置和属性值的差异。
(8)数据集成处理。指在来源不同、类型不同的各种数据集的相互操作过程中所产生的误差。数据集成是包括数据预处理、数据集之间的相互运算、数据表达等过程在内的复杂过程,其中位置误差、属性误差都会出现。
(9)数据的可视化表达。数据在可视化表达过程中为适应视觉效果,需对数据的空间特征位置、注记等进行调整,由此产生数据表达上的误差。
(10)数据处理过程中误差的传递和扩散。在数据处理的各个过程中,误差是累积和扩散的,前一过程的累积误差可能成为下一阶段的误差起源,从而导致新的误差的产生。
4.空间数据应用中产生的空间数据质量问题
在空间数据使用的过程中也会产生空间数据质量问题,主要包括如下两个方面:
(1)对数据的解释过程。对于同一种空间数据来说,不同用户对它的内容的解释和理解可能不同。例如,对于土壤数据,城市开发部门、农业部门、环境部门对某一级别土壤类型的内涵的理解和解释会有很大的差异。处理这类问题的方法是随空间数据提供各种相关的文档说明,如元数据。
(2)缺少文档。缺少对某一地区不同来源的空间数据的说明,诸如缺少投影类型、数据定义等描述信息。这样往往导致数据用户对数据的随意性使用而使误差扩散开来。
四、空间数据质量的控制
空间数据质量控制是指在GIS建设和应用过程中,对可能引入误差的步骤和过程加以控制,对这些步骤和过程的一些指标和参数予以规定,对检查出的错误和误差进行修正,以达到提高系统数据质量和应用水平的目的。在进行空间数据质量控制时,必须明确数据质量是一个相对的概念,除了可度量的空间和属性误差外,许多质量指标是难以确定的。因此空间数据质量控制主要是针对其中可度量和可控制的质量指标而言的。数据质量控制是个复杂的过程,要从数据质量产生和扩散的所有过程和环节入手,分别采取一定的方法和措施来减少误差。
(一)空间数据质量控制的方法
1.传统的手工方法
质量控制的手工方法主要是将数字化数据与数据源进行比较,图形部分的检查包括目视方法、绘制到透明图上与原图叠加比较,属性部分的检查采用与原属性逐个对比或其他比较方法。
2.元数据方法
数据集的元数据中包含了大量的有关数据质量的信息,通过它可以检查数据质量,同时元数据也记录了数据处理过程中质量的变化,通过跟踪元数据可以了解数据质量的状况和变化。
3.地理相关法
用空间数据的地理特征要素自身的相关性来分析数据的质量。例如,从地表自然特征的空间分布着手分析,山区河流应位于微地形的最低点,因此,叠加河流和等高线两层数据时,若河流的位置不在等高线的汇水线上且不垂直相交,则说明两层数据中必有一层数据有质量问题,如不能确定哪层数据有问题时,可以通过将它们分别与其他质量可靠的数据层叠加来进一步分析。因此,可以建立一个有关地理特征要素相关关系的知识库,以备各空间数据层之间地理特征要素的相关分析之用。
(二)空间数据生产过程中的质量控制
数据质量控制应体现在数据生产和处理的各个环节。下面仍以地图数字化生成空间数据过程为例,介绍数据质量控制的措施。
1.数据源的选择
选择内容和质量满足系统建设要求的数据源是选择数据源的基本要求。这一阶段的数据质量控制,主要主意以下方面:
(1)首先,数据源的误差范围不能大于系统对数据误差的允许范围。因为数据处理过程中的每一步都会保留原有误差,并可能引入新的误差。那样,进入数据库或经过分析后输出的数据误差就会超出系统对误差的容许范围。
(2)地图数据源,最好采用最新的二底图,即采用以变形较小的薄膜片为材料制作的分版图,以降低输入原图的复杂性和可能的变形误差。
(3)尽可能减少数据处理的中间环节。如直接使用测量数据建库而不是将测量数据先行制图,再在所制地图基础上经数字化而建立空间数据库。
2.数字化过程的数据质量控制
主要从数据预处理、数字化设备的选用、对点精度、数字化限差和数据精度检查等环节出发。
(1)数据预处理。主要包括对原始地图、表格等的整理、清绘。对于质量不高的数据源,如散乱的文档和图面不清晰的地图,通过预处理工作不但可减少数字化误差,还可提高数字化工作的效率。对于扫描数字化的原始图形或图像,还可采用分版扫描的方法,来减小矢量化误差。
(2)数字化设备的选用。主要按手扶数字化仪、扫描仪等设备的分辨率和精度等有关参数进行挑选,这些参数应不低于设计的数据精度要求。一般要求数字化仪的分辨率达到0.025mm,精度达到0.2mm;对扫描仪的分辨率则不低于300DPI(Dots Per Inch)。
(3)数字化对点精度(准确性)。数字化对点精度是指数字化时数据采集点与原始点重合的程度。一般要求数字化对点误差小于0.1mm。
(4)数字化限差。数字化时各种最大限差规定为:曲线采点密度2mm、图幅接边误差0.2mm、线划接合距离0.2mm、线划悬挂距离0.7mm。对于接边误差的控制,通常当相邻图幅对应要素间距离小于0.3mm时,可移动其中一个要素以使两者接合;当这一距离在0.3mm与0.6mm之间时,两要素各自移动一半距离;若距离大于0.6mm,则按一般制图原则接边,并作记录。
(5)数据的精度检查。主要检查输出图与原始图之间的点位误差。一般对直线地物和独立地物,这一误差应小于0.2mm;对曲线地物和水系,这一误差应小于0.3mm;对边界模糊的要素应小于0.5mm。
(三)空间数据处理分析中的质量控制
地理数据在计算机的处理分析过程中,会因为计算过程本身引入误差,主要包括:
(1)计算误差。计算机能否按所需的精度存储和处理数据,主要取决于数据存储的有效位数。数据位数较小时,反复的运算处理过程会使舍入误差积累,带来较大误差。
(2)数据转换误差。数据类型转换和数据格式转换是GIS数据处理中的常用操作,这些操作都是通过一定的运算而实现的,因而也都会带来一定的误差。特别是矢量数据格式与栅格数据格式之间的转换,会因为栅格单元尺寸而大受影响。
(3)拓扑叠加分析误差。叠加分析是GIS特有的,也是极为重要的应用分析功能之一。无论矢量数据还是栅格数据,都将叠加分析作为其重要的空间分析手段。矢量数据的多边形叠加分析,由于多边形的边界不可能完全重合,从而产生若干无意义的多边形,对这样无意义多边形的处理往往会改变多边形的边界位置而引起误差,并可能由此进一步带来空间位置上的地物属性误差。