2.1 初级图像特征
初级图像特征是用于描述图像颜色、纹理和形状等信息的基础视觉描述符。
2.1.1 颜色特征
颜色特征,顾名思义,表示图像中各区域或物体表面颜色相关的性质。由于不同物体往往具有不同的颜色特征,且其提取具有原理简单、易于实现等优点,颜色特征是计算机视觉领域中使用最广泛的描述符。在提取颜色特征前,研究者往往通过预处理把图像转化到特定的色彩空间,以得到更好的描述效果。使用较为广泛的色彩空间包括RGB、YUV和HSV空间。选择不同的色彩空间,会影响到颜色信息的描述效果,因此不同色彩空间的特征通道相集成能够增加颜色信息的多样性,形成分辨力更好的特征描述符。
1.RGB色彩空间
人的眼睛对于不同颜色的敏感度不同,这是因为人眼内存在若干种可以辨别颜色的锥状细胞。这些锥状细胞对三种光最为敏感:黄绿色(波长为564nm)、绿色(波长为534nm)和蓝紫色(也称为紫罗兰色,波长为420nm)。虽然三种锥状细胞并不是对红色、绿色以及蓝色最为敏感,但这三种颜色的光可以分别对三种锥状感光细胞产生刺激。因此研究者把红色(波长范围是622~780nm)、绿色(波长范围是492~577nm)以及蓝色(波长范围是455~492nm)作为人类视觉系统对颜色感知的基础颜色,并将这三种颜色称为色光三原色。
基于以上所述的人类视觉系统基本原理,将红(Red)、绿(Green)和蓝(Blue)三种颜色设置为RGB色彩空间的基色。使用RGB色彩空间,可以表示人类视觉系统所能感知到的颜色。
RGB色彩空间的相加混色原理是:所有颜色都可以由红、绿和蓝三种色光相加混色而成。这三种色光的比例决定了合成颜色的色度,三者亮度之和决定了合成颜色的亮度。当三种基色光的取值均为0时,叠加的结果呈现黑色;当三种基色光的取值相等(除了0和最大值)时,叠加的结果呈现灰色;当三种基色光的均取最大值时,叠加的结果呈现白色。RGB相加混色效果如图2-1所示。
图2-1 RGB相加混色效果
在实际应用中,计算机显示器和电视机等采用RGB相加混色原理去实现彩色还原。例如,目前广泛使用的LED彩色显示屏就是通过控制每个像素对应的RGB半导体发光二极管,使得每个像素呈现不同的颜色,从而产生彩色画面。
RGB色彩空间中三个基色间具有相关性,每个基色既具有亮度特性,又包含色度特性,不便于处理传输。因此产生了以下两种色度与亮度分离的色彩空间。
2.YUV色彩空间
在YUV色彩空间中,Y表示亮度,U和V表示色度差值。YUV是电视系统采用的一种颜色编码方法,通过亮度信号和色度信号相分离的方式,解决了彩色电视和黑白电视兼容的问题。
YUV中的分量是RGB分量线性叠加的结果。将RGB信号的特定部分叠加,可以建立亮度信号Y。其中,输入的RGB信号的红色部分与输入的RGB信号的亮度值之间的差值为U。输入的RGB信号的蓝色部分与输入的RGB信号的亮度值之间的差值为V。RGB色彩空间与YUV色彩空间转换公式见式(2-1)和式(2-2)。
3.HSV色彩空间
HSV色彩空间由色调(Hue,H)、饱和度(Saturation,S)和明度(Value,V)三个分量构成。H分量用角度度量,范围为0°~360°,从红色开始沿着逆时针方向划分,红色为0°,绿色为120°,蓝色为240°。S分量表示颜色接近光谱色的程度,取值范围是0%~100%,其值越高则饱和度越高,颜色越接近光谱色。光谱色的白光成分为0,饱和度达到100%。V分量表示颜色的亮度。与RGB空间相比,HSV空间更接近人眼对颜色的主观感受。
HSV的计算公式见式(2-3)~式(2-7)。
图像的颜色信息可以基于上述色彩空间使用多种方法来表示,例如颜色直方图、颜色集、颜色矩和颜色聚合向量等。用数学统计的方法来提取目标的外观特征,其中对色彩空间中的某个分量的数值进行统计得到的是灰度直方图。相应地,对彩色图像做统计得到的是颜色直方图。颜色直方图可以基于整幅图像进行全局统计,也可以划分区域做局部统计。普通颜色直方图直接统计整个图像的颜色分布情况,而颜色空间二维直方图将图像划分成多个子区域,再分别统计每个子区域的颜色分布情况。在实际匹配中,候选图像与目标图像的所有颜色空间子直方图都匹配成功才算是匹配成功。为了充分保证目标颜色的空间信息,划分的子区域越多,空间分辨率就会越大,但同时也增加了存储开销,并且也会由于空间过于破碎而使得算法性能下降,因此在子区域数目的选择上要综合考虑。直方图作为一种简单有效的基于统计特性的特征描述手段,在计算机视觉领域广泛使用。
2.1.2 纹理特征
纹理特征表示的是物体表面的固有性质,可以理解为颜色或亮度在物体表面的变化规律。从经验可以知道,人类视觉系统能够迅速地判断出具有不同纹理的表面,但是人类视觉系统的处理原理很难获知。通常认为,纹理基元按照一定规律分布形成了纹理,例如斑马或者老虎身上的条纹。这种规律具有一定的均匀性、重复性和方向性等特性,以上特性也是研究和分析纹理的基础。
不同于颜色特征这种以像素为计算单位的特征,纹理特征具有很强的区域特性,因而纹理分析方法需要在包含多个像素点的区域中进行统计分析。纹理分析指通过运用一定的图像处理技术提取出纹理的特征参数,从而对纹理进行定性或定量描述。按照纹理分析的做法,可分为三种方法,即结构法、统计法和频谱法。结构法是指通过对区域的结构规律进行分析,得到区域的纹理基元,然后再利用纹理基元来描述图像中的纹理。统计法是指对区域内的颜色分布的纹理属性进行统计,该类方法主要有随机场模型、随机分形模型和灰度共生矩阵等。频谱法是指先对图像进行某种变换,例如Garbo变换、傅里叶变换或者小波变换,再用相应变换的系数来描述纹理。在模式匹配中,这种区域性的特征能够避免由于局部偏差导致匹配失败,具有较大的优势。
T.Ojala等提出的LBP(局部二值模式,Local Binary Pattern)特征是常见的纹理特征之一[3],是一种用来描述图像局部纹理特征的算子。它的主要特点是具有旋转不变性和灰度不变性,因而能够有效地提取图像的局部纹理特征。
LBP特征值的计算过程是:首先将图像灰度化,并定义一个3× 3的窗口的中心像素值作为阈值,再用剩余像素灰度值和阈值进行比较;若周围灰度值大于阈值,则将其标记为1;若灰度值小于阈值,则标记为0。然后对3×3的窗口内标记为1的窗口权重求和,从而产生一个8位二进制数,即为该中心点的LBP特征值。该值反映了该点的纹理特征,即通过与周围像素点的灰度值对比,得到中心点在图像窗口中的前景概率信息。如图2-2所示,对于图中的局部像素值,以中心像素的值为阈值对周围像素进行量化,并按照二进制规则进行编码,即可得到中心点的LBP特征值。
图2-2 LBP特征值计算过程示意图
自LBP算法问世后,研究人员又对LBP特征算法进行了不断的改进,提出了许多改进算法,诸如圆形LBP算法、LBP旋转不变模式、LBP等价模式。这些方法在一定程度上提高了LBP特征算法的计算效率和性能。
LBP算法在目标检测和人脸识别等领域中都取得了良好的应用效果。但在实际应用中,一般都是采用LBP特征的统计直方图作为特征值代替原始LBP。其用于目标检测的基本原理是:将输入图片划分成若干个图像块,对每一个图像块里面的像素点提取LBP特征,再建立LBP特征的统计直方图。这样一个统计直方图就可以描述一个图像块,将所有统计直方图串联起来就是整个图片的特征,从而得到图像的LBP纹理特征向量。采用LBP的相似度量函数就可以比较不同图片之间的相似性了。
但是,纹理特征也有其缺点。同一幅图像在不同分辨率下所计算出来的纹理特征可能会存在较大差异。同时,纹理特征也容易受环境因素的干扰。物体在某些特定光照情况下,其图像反映出来的纹理并不一定是真实的。
在检索具有粗细、疏密等方面较大差别的纹理图像时,利用纹理特征是一种有效的方法。但当纹理之间的粗细、疏密等易于分辨的信息之间相差微乎其微的时候,人类视觉感知到的不同纹理的差异往往难以通过上述纹理特征进行准确表示。
2.1.3 形状特征
形状特征表示的是物体的轮廓性质或区域性质,是对边界敏感的一类特征。通常情况下,形状特征有两类表示方法,一类是轮廓特征,另一类是区域特征。图像的轮廓特征主要针对物体的外边界,而图像的区域特征则关系到整个形状区域。
在众多图像形状特征之中,最具有代表性的是HOG(方向梯度直方图,Histogram of Oriented Gradient)特征[4]。梯度是函数的一阶差分,包含了幅度和方向信息,梯度信息同样是保证HOG特征描述符具有几何不变性的重要前提。HOG特征是以统计图像中某个局部区域梯度方向直方图的方式来形成特征,被广泛应用到了目标检测和图像处理领域,也是计算机视觉技术中非常重要的特征描述符之一。2005年,法国研究人员Dalal等提出了HOG特征,在行人检测与识别领域取得了巨大的成功。其核心思想是:在一幅图像中,局部目标的表象和形状能够借助梯度或边缘的方向密度分布进行描述,利用目标边缘处的梯度信息,统计梯度的分布状况,可以较好地描述图像的形状特征。
HOG特征的具体实现方法可以概括为:首先利用图像灰度化和伽马校正将颜色空间归一化,再把图像分割成若干个互不重叠、相同大小的子区域(细胞单元)。针对细胞单元内每一个像素值改变的方向和大小(像素的梯度),将每个细胞单元的梯度方向划分为9个不同的方向块,并计算每个像素的梯度方向,最后统计落在每个方向块内梯度方向的个数,则得到了梯度方向直方图。针对HOG特征的局部特征梯度操作,可以较好地保持图像位置的几何不变性。为了能够对光照、阴影和边缘进行压缩,接下来对梯度强度做了归一化,而归一化后的特征向量被称为HOG描述符。将所有图像块的HOG特征向量串联起来即得到原始图像的HOG特征描述符。具体实现流程如图2-3所示。
图2-3 HOG特征提取流程
下面给出计算每个像素位置的梯度方向值的公式,见式(2-8)。
其中,Gx(x,y)和Gy(x,y)分别代表像素点(x,y)的水平方向梯度和竖直方向梯度,H(x,y)代表像素点(x,y)的像素值,G(x,y)、θ(x,y)分别是像素点的梯度大小和梯度方向。
Pedro在2008年提出的DPM(可变形部件模型,Deformable Parts Model)算法[5],即在HOG特征的基础上加以改进并应用,具体的改进是:在各个连通区域合并时,将相邻的四个连通区域进行合并归一化,最终计算出的特征与HOG特征相似。另外,DPM同时使用有符号梯度和无符号梯度,从而将角度范围的计算扩展到了180度。最后对DPM算法获取的特征基于主成分分析降维,有效提高了计算效率。DPM算法在人脸检测、行人检测等图像检测领域取得了良好的效果,但是DPM算法检测过程相对复杂,速度也较慢。