2.2 图像与数字图像
为了对图像施予有目的的处理,我们首先要了解图像的形成过程及其内在特性,同时用适当的数学模型去表征图像的特性也是十分必要的。
我们知道,图像是在一定成像条件下对被观测目标的电磁波反射(辐射或透射)性质的表现或记录。在前面已经描述过,按记录形式可将图像分为两种,即连续图像和数字图像。我们把记录在胶片等物理介质上的普通的人物或风景等的灰度及颜色连续变化的图像叫模拟图像或连续图像。当一幅图像从物理过程产生时,整幅图像上的属性值正比于物理源的辐射能量,且是非零和有限的。对于这种相片,像面上像点的空间分布是不间断的、连续的,相邻像点的灰度变化特征也是连续的。而把模拟图像变成具有一定形状的小单元,以各个小单元的平均亮度值或中心部分的亮度值作为该单元的属性值进行分割,并利用存储设备进行存储的图像叫数字图像(或叫栅格图像、离散图像)。单帧的静态图像和随时间变化而变化的动态图像序列都可归入到数字图像。在数字图像上,每个像点的坐标和像点的灰度值都是用离散数据表示的。
数字图像处理是借助计算机软、硬件设备对图像实施操作的,因为计算机没有办法直接处理连续的物理图像,它只能按照一定规则(计算机程序)处理用离散数据表示的数字图像。因此,需要将连续图像转化为离散图像后才能借助计算机进行处理。
本节将重点介绍连续图像和数字图像的表示方法,以及如何把连续图像变成离散图像的一些基本原理和具体过程。
2.2.1 连续图像的表示方法
实际生活中,客观场景中的地面目标是千差万别和丰富多彩的。但在图像处理中,可将在空间光辐射能量的连续分布看作图像的来源。图像是借助遥感传感器对目标电磁波辐射特性的记录。我们应该从客观的角度对连续图像的一些确定性特征进行讨论。
设C(x,y,λ,t)是对图像源空间辐射能量分布的表示。其中x、y为其空间坐标;λ为辐射能量对应的波长;t为获取图像的时间。
连续图像的表示式应隐含以下四项约束,即
①0≤C(x,y,λ,t)≤A (2.1)
因为物体的亮度实际上是对客观物体能量的一种量度,所以其强度应该是非负、有界的实数,而且其最大亮度不能超过某一实数A。
②0≤x≤Lx;0≤y≤Ly (2.2)
实际存在的图像和成像尺寸不能是无穷大的。简单起见,表示图像的模型一般设在一个矩形区域内。Lx和Ly分别表示图像在垂直、水平两个方向上的尺度。
③0≤t≤T (2.3)
上式表明任何一幅图像都是在有限时间内对特定场景特征的一个采样。
④图像函数在定义域内应该是连续的。客观环境在空间上的连续性,反映在图像上也应该是连续的。
通过对图像确定性特征的分析,我们可以认为图像的幅面总是在平面上有限的,而且在影像上的物体亮度值也可以用一个大于零的数值表示。比如一景遥感图像大小可以是23cm×23cm,一幅常规的航空相片尺度是18cm×18cm。因此,通常用一个取值非负的、有限的二维连续函数f(x,y)表示一幅连续的、在平面上静止的图像,即
(2.4)
式中,(x,y)表示影像上物体对应的空间位置坐标;f(x,y)表示物体在(x,y)处的属性值(包括色调、亮度等)。
针对上述的四项约束和实际情况,这个表征连续图像的二维连续函数应该有以下属性,即
(2.5)
式中,Lx和Ly分别表示图像在x方向和y方向的最大尺度,即图像的长和宽;G表示图像上各个物体属性值的最大值。
以下是几种连续图像的具体表达形式。
二值图像: f(x,y)=0,1
灰度图像: 0≤f(x,y)≤2 n-1,n=3或8等
立体图像: {fL(x,y),fR(x,y)}
彩色图像: {fi(x,y)} i=R,G,B
多波段图像: {fi(x,y)} i=1,2,…,m
动态序列图像: {ft(x,y)} t=t1,t2,…,tn
上述各表达式即为用连续函数或函数向量表示连续图像的一般方法。另外,我们也可以将图像假定为马尔科夫随机场,以便用场理论来加以表达和分析。但由于客观场景的随机性,实际上很难得出一个真正的用来表示模拟图像的连续函数。
为了用计算机对图像进行处理,我们必须借助一定的方法将模拟的连续图像变换为用数字表达的离散图像。
2.2.2 图像数字化方法
为了用计算机对图像进行处理,需要把模拟的连续图像转变成离散的数字图像,两者之间必须借助某些技术搭建桥梁进行连接。这一连接技术即图像的转变过程,我们称它为图像的数字化,意指对信号的明暗程度和像点密度进行的离散化处理。如利用常见的扫描仪进行相关参数设置来扫描相片就是一个对图像进行数字化的过程。而目前普遍应用的CCD数码相机则是直接将客观场景进行离散化记录。
常规而言,图像数字化包括两个部分,即图像平面坐标的离散化和图像灰度值的离散化;也可以说是在时间轴上的离散化和特征值(幅值)的离散化。我们把图像平面坐标值的离散化这个空间上的数字化过程称为图像取样或图像采样(Image Sampling)。这一过程完成离散图像上的像素与连续图像上的物体在空间位置上的对应。而把图像幅度值(灰度值)的离散化,即对物体属性值的离散化处理过程称为图像量化(Image Quantization)。图像量化完成连续图像与离散图像物体属性值的交接,它给像素赋上属性值。
通过图像采样和图像量化这两个技术过程分割得到的数字图像上的各个单元,就叫做像素(像元,像点,Pixel),它是构成数字图像的最小单元。从连续图像到数字图像的数字化的结果,就是借助这个小单元来表达的。数学意义上的点面积为零,而在实际中用该点的一个缓冲区域来代替原始点目标。
图2.3表示物理图像与其数字化后像素的简单对应关系。
图2.3 图像与像素的对应关系
当把一个物理图像经过光电转换处理输入到存储设备或输出到视频显示系统时,将每个连续图像描述为N×M矩阵的形式,矩阵的每一个元素被称为一个像素,它是一个非负值标量,因为图像光强没有负值。其中,N为纵向的最大像素数;M为横向的最大像素数。通常N代表图像的行数,M代表图像的列数。对于黑白渐变的影像,像素值的大小与色调的对应关系一般情况是255代表白,而0代表黑。用计算机进行图像处理时,像素值的大小与色调的对应关系可由用户按自己的习惯加以定制。当进行图像的数字化时,当然希望用尽量多的离散值来代替原来的连续信号。实际上,由于A/D转换器的精度及数据容量限制,所得到的离散值是有限的,不能随意取无限多的数,需要对图像采样和量化涉及的关键问题进行研究。
(1)图像采样
图像采样完成物理图像向数字图像的位置对应转化。它是通过用空间抽样函数与原始图像相乘的结果。在这个过程中,需要考虑采样单元的形状和各个相邻单元的间隔。我们把不同方向、不同位置上采样间隔和形状都相同的采样方法叫作均匀采样;而把不同方向、不同位置上采样间隔和形状发生变化的采样方法叫作非均匀采样。采样单元的形状可以根据需要而确定。它可以是正三角形、方形、正六角形等多种形状。采样的间隔也可以根据实际情况确定。但考虑到便于图像输入输出及利用计算机进行处理,最好采用方形特别是正方形的形状,也就是在水平和垂直方向上的采样间隔、形状要保持一致。
在数字图像中,像素排列的横方向上从左到右带有地址编码的数字叫列号(像素号);在纵方向上从上到下带有地址号码的数字叫行号。各像素的位置被(列号,行号)唯一指定。
在图像采样时,像素的大小和采样的间隔是两个重要的元素。相邻像素的间隔叫做采样周期。如果采样周期长则数据量较少,但利用采样结果图像还原图像的质量较差;若采样周期短,采样数据的精度得到提高但数据量会有所增加。由于图像本身的复杂性和采样技术的局限性,采样间隔的确定将直接影响采样图像的质量,不可避免地会产生一些影像失真问题。因此,我们必须考虑最佳的图像采样周期,关于这一点有以下的Nyquist采样定理(Nyquist Sampling Theorem),也叫香农采样定理。
如果函数f(x,y)在x和y方向的最高空间频率(即截止频率)分别为uc和vc,那么当图像的取样间隔Δx和Δy满足下列条件时,即
(2.6)
就可以保证由图像取样值圆满地恢复原图像函数f(x,y),即保持了原图像的全部信息。
通常称Δx和Δy为Nyquist间隔,2uc和2vc称为Nyquist频率。为了恢复图像,数字化时的取样间隔应按Nyquist频率确定。公式的物理意义可以描述为:它规定最小的像素大小应该小于连续函数的最高频率的一半。
空间频率(Spatial Frequency)是指细节特征在单位长度上的重复次数,它是根据19世纪法国数学家傅里叶提出的分析振动波形的理论而出现的描述视觉系统工作特性的概念。最初在物理光学中,它指每毫米的长度内具有的黑白光栅数,用线/毫米表示。当空间频率超过一定限度时,无论对比度怎样加大,都看不清栅条。而不能看清栅条时的频率称为截止频率。空间频率和像素的位置、相邻像素灰度值的大小直接相关,是图像处理初学者比较难理解的一个很重要的基本概念。在图像处理中,空间频率可简单地理解为图像像元属性值在一定空间范围内的变化次数。变化次数多,我们说这幅图像的空间频率高,对物体细节的表现力好。若空间频率低,图像中的物体变化较少,这表明图像中有较大的物体,表现出灰度相近的区域特征。
图2.4表示图像采样的基本原理。
图2.4 图像采样原理
图像的视觉质量在很多情况下可根据图像特性利用自适应的采样过程来改进。一般来说,为了保持图像中的细节,在变化频繁的灰度过渡区附近可采用较密的采样,而在变化较少即灰度较平滑的区域可采用较稀的采样。作为例子,可考虑由一张脸面在均匀背景上而组成的简单图像(如可视电话中常有这种情况)。背景的细节信息很少,可用较稀的采样来表达。相反,脸面包括相当多的细节,假如背景上省下来的采样用在脸面上,则整体的数据量和视觉效果会得到改善。另外在脸面和背景交界处的灰度过渡区也应该考虑分配较多的采样。
非均匀采样的缺点之一是需要确定采样间隔变化的边缘,就是非常粗糙地确定也需要较大的工作量。这种方法对包含较少均匀区域的图像也不实用。例如,非均匀采样对包含很密人群的图像就很难办。因此,通常我们是采用均匀采样的方法来处理图像的。
图像采样完成了离散像素与连续图像在空间位置上的对应,各个像素并没有给定属性值,没有属性值的像素是不完整的,也没有任何实际意义。我们必须借助另外的技术来完成物体与像素之间属性值的传递。图像量化就是将原始图像的属性值传递给对应离散图像像元的一种方法。
(2)图像量化
图像量化完成连续图像上物体与离散图像上像素属性值的传递工作。这里需要解决的中心问题有两个(以灰度图像为例):即如何确定图像像素灰度值(光学密度)的量化等级级数G,也就是用多少个灰度级别来表示图像;如何确定每一个灰度级所对应的灰度范围。
灰度等级数G一般确定为2的整数次幂,这种确定方法主要考虑的是便于用计算机二进制位来表示图像灰度值,从而使图像处理程序变得简单,即
(2.7)
上式中n为正整数,它指图像的密度分辨率,也叫图像的辐射分辨率,描述的是离散亮度值的范围和可辨别的亮度值个数,有时也称为“动态范围”。也对应灰度级别中可分辨的最小变化,或者说是存储每个像点可占用的比特数。通常取n=6~8。
当n=6,G=64(0~63);
当n=8,G=256(0~255)。
一幅图像亮度层次变化多,在进行图像量化时的幂级n应该取较大值;图像亮度层次变化少,幂级n的取值相应较小。灰度级对应的灰度范围大,会导致产生较大的量化误差。像素及其灰度级的对应关系如图2.5所示。有时出于习惯,黑白灰阶对应的灰度值也可以互换。
图2.5 像素及其灰度级的对应关系
在图像被采样和模数转换后,代表图像上每个像素的光强用一个有一定取值范围的整数来表示,这个代表图像上像素取值的整数即为灰度级,有的书上也叫DN(Digital Number)值(没有颜色的光称为消色光或单色光。这种光电属性是指光的强度或大小。灰度级这一概念通常用来描述单色光强度,因为它的范围从黑到灰,最后到白)。它取决于模数转换模块,也与所用的数字化器有关。按照Weber法则,6比特量化精度即可满足人的视觉要求。目前常用的是用256个灰度级来表示图像灰度的级别,相当于采用8个计算机二进制位存储一个像素灰度值,这种图像被称为8比特图像,像素取值由0到255,这大大优于人眼对感知影像的要求,因人眼分辨率略高于16个灰度级。也可以采用其他灰度级表示图像的像素值,这取决于用户的需要。一幅数字图像在存储或处理时都采用一个以像素为位置、灰度值为数组元素的矩阵表达式。
相应地,每一个灰度级所对应的灰度范围也有两种确定方法,即均匀量化和非均匀量化。当相邻的灰度级的变化增量为一个确定值时,我们称这种量化方法为均匀量化;反之,为非均匀量化。采用均匀量化时,在整幅、单个图像灰度范围内以一定间隔值均匀地划分灰度级,针对图像的光学密度,使相邻灰度取的数值增量为定值(如黑色取值0,白色取值255,灰色为128;或黑色取值255,白色取值0,灰色为128等)。非均匀量化,即相邻灰度级的数值增量为一变量,目的是使图像量化的结果尽量保持图像细节的变化。经过量化后,若结果图像的灰度范围占据了灰度级的全部有效段,则该图像将具有较高的对比度,被称为高动态范围图像。
当图像的灰度级数变化较小时,常需要在量化时非均匀地分配灰度级。我们可采用与上面介绍的非均匀采样技术类似的方法来分配灰度级。由于人眼在灰度剧烈变化区估计灰度的能力相对较差,因此,在这种情况下边缘区可用较少的灰度级数,其余的灰度级可以用在灰度变化平缓区。这样可以避免或减少由于量化等级的减少而在这些区域产生虚假轮廓(False Contours),即在明暗变化比较平坦的部位会产生几乎看不见的非常细小的山脊状结构纹理,类似于轮廓线的纹路,如图2.6所示。
图2.6 量化等级与图像表达
从上到下灰度楔的灰度级依次为32、64、128、256。人类视觉对相邻灰色区域的亮度差异敏感,减少量化分层数时,图像亮度出现上下量化层次之间跳动的现象,即灰色分层轮廓现象。观察上图可发现,当灰度级为32时,虚假轮廓比较明显,64灰度级的楔内存在虚假轮廓不十分明显;而128级和256级的楔内基本看不出轮廓的存在。
上述量化方法也受到边界和细节内容的影响。另一种有吸引力的灰度级分配方法是计算所有灰度值出现的频率。如果某个范围的灰度值出现频繁而另一些范围较少,量化灰度在灰度出现频繁范围就要较密而在这个范围之外就可较稀。随着大容量存储介质的出现和计算机设备性能价格比的提高,用户对图像采样和图像量化的数据量相对来说考虑得较少,通常只是借助改变扫描仪的扫描分辨率来对整幅图像均匀采样和量化,便可得到满足图像处理的扫描结果。例如,设置扫描仪的扫描分辨率为300dpi(dots per inch)或600dpi就可以满足一般的文字识别和图片保存的要求。
对于一幅大小确定的图像,在信息量为一常值的条件下,采样间隔和灰度量化应如何确定并不存在完美的解答方案,但定性分析可按如下的方法来考虑:对于亮度基本相同的区域分布在画面上较大的面积中的这类图像,明暗程度的量化可细些,而空间采样间隔可大些;对于细小物体分布很多、形状复杂的图像,空间采样可细些,明暗程度的量化可大些。
通过图像坐标取样和灰度量化处理便将一幅连续图像转变为用矩阵表示的离散的数字图像,从而建立了连续图像和离散图像之间联系的桥梁,便于用矩阵、数组等理论进行图像的处理。
2.2.3 数字图像的表示方法
数字图像或称为离散图像,它是连续图像的空间坐标和属性值经过数字化的采样和量化两个过程被离散化的结果,是对连续图像的一种近似。假设对一幅图像f(x,y)取样后,得到了一幅有着M行和N列的图像,我们称这幅图像的大小为M×N。坐标的值(x,y)是离散值。通常采用一个矩阵来表示数字图像,即
(2.8)
其中,垂直方向和水平方向分别用x轴和y轴来对应。f(x,y)表示(x,y)处物体的灰度值,x=0,1,2,…,M-1;y=0,1,2,…,N-1。图像原点定义在(x,y)=(0,0)处。M表示图像在垂直方向上的像素点数,其表明了图像由多少横向行组成;N表示图像在水平方向上的像素点数,其表明了图像中由多少纵向列组成。有的参考书上的坐标约定与上述说法有所不同,请读者在阅读时注意区分。
由前述讨论,我们可以得到如下数字化图像函数的表示:
(2.9)
上述矩阵中的每个元素,就是数字图像中的相应像素;各个元素的值,即为相应像素的属性值(灰度值等)。用这种方法表示图像,有利于应用数学方法中的矩阵理论对图像进行计算机分析和处理。实际软件编程中,我们就是把数字图像看成一个由像素灰度值等组成的二维数组。
除用矩阵表示离散图像外,还可以用向量表示,该过程也称为矩阵拉直,即
(2.10)
其中,fi=(fi, 0,fi, 1,fi, 2,…,fi, N-1)T表示图像的第i个行向量。图像向量是由矩阵转化而来的,用向量表示数字图像的目的是可以应用向量理论对图像进行分析。
图像处理是一个涉及诸多研究领域的交叉学科。因此,我们可以从不同的角度来审视数字图像。
从线性代数和矩阵论的角度,数字图像就是一个由图像信息组成的二维矩阵,矩阵的每个元素代表对应位置上的图像亮度和/或地物的色彩信息。当然,这个二维矩阵在数据表示和存储上可能存在变形,因为每个单位位置的图像信息可能需要不止一个数值来表示(比如彩色序列图像由时间和彩色信息构成),这样可能需要用三维或多维矩阵来对其进行表示。
由于随机变化和存在噪声,图像整体从本质上看是具有统计特性的,因而有时将图像函数作为随机过程的实现来观察其存在的优越性。这时,有关图像信息量和冗余的问题可以考虑用概率分布和相关函数来描述。因此,一幅图像可表达成三种不同的数学模型是合理的,它们是连续模型、离散模型和随机场模型。例如,如果知道图像像素值的概率分布,可以用熵(熵是信息论中用于度量信息量的一个概念。一个系统越是有序,信息熵就越低;一个系统越是混乱,包含的信息越多,信息熵就越高。可以说,信息熵是系统有序化程度的一个度量。)来度量图像的信息量,这是信息论中的一个重要思想。
从线性系统的角度考虑,图像及其处理也可以表示为用狄拉克冲击函数表示的点扩散函数的叠加,在使用这种方式对图像进行表示时,可以采用成熟的线性系统理论加以研究。大多时候,我们考虑使用线性系统近似的方式对图像进行近似处理以简化算法,虽然实际的图像并不是线性的,但图像坐标和像素的取值都是有限的和非连续的。
2.2.4 数字图像的基本参数
数字图像是被空间采样和幅值量化后的二维函数。通常是用矩阵网格采样并对图像像素点的亮度幅值进行均匀量化实现的。所以数字图像可表示为一个二维实数矩阵。一幅图像由许许多多的像素点构成,每个像素点包含着反映图像在该点的明暗和颜色变化等信息。
一幅数字图像可用图像分辨率、图像深度和图像数据容量这三个基本参数来描述。
(1)图像分辨率(Image Resolution)
这里谈到的图像分辨率有点像遥感图像的空间分辨率,实际上是指对原始图像的采样分辨率,即指图像水平或垂直方向单位长度上所包含的采样点数。单位是“像素点/单位长度”,例如:像素点/英寸(Pixel/Inch,pixels per inch,ppi)等,描述扫描仪分辨率的DPI(Dot Per Inch,DPI)参数即是图像分辨率的一种表示。
采样点数越多,图像的分辨率越高。分辨率越高,图像越清晰,图像文件所需的存储空间也越大,编辑和处理所需的时间也越长。或者说,像素尺寸越小,单位长度所包含的像素数据就越多,分辨率也就越高,但同样物理大小范围内所对应图像的尺寸也会越大,存储图像所需要的字节数也越多。
(2)图像深度(Image Deepness)
图像深度指在位图中表示各像素点的亮度或色彩信息所采用的二进制数的位数,也叫像素深度。
对于灰度图像来说,像素深度也叫灰度级分辨率,或叫色阶,指图像中可分辨的灰度级数目。例如,深度为1位的图像即为二值图像,取值为0时表示黑色(暗色),取值为1时表示白色(亮色),即表示一幅黑白图像。常用的图像深度是8位,也就是我们常说的256色图像。如果是彩色图像,则表示该图像有256种颜色;若是灰度图像,则表示该图像有256个灰度级,取值范围为0~255。图像深度越深,能够表示的颜色数量(或色调数)越多,图像的色彩也就越真实,色调呈现得越细腻。
(3)图像数据量(Image Data)
图像数据量是一幅图像的总像素点数与表示每个像素点灰度值所需字节数的乘积。它与图像的分辨率、图像深度,以及是否为彩色图像相关。可用下式表示。
(2.11)
式中,Size表示图像的位数;M×N表示图像总的像素数;B表示图像深度;c表示颜色分量。例如,当M=N=512,B=8,c=1时,表示该图像为256灰度级的黑白图像,对应该图像的数据量为Size=2097152 bit(256字节);而当M=N=512,B=8,c=3时,表示该图像为24位真彩色图像,对应该图像的数据量为Size=3×2097152 bit(3×256字节)。