1.2 研究现状及发展趋势
由于成像系统、传输设备等的不完善,自然图像在获取、存储与传输过程中往往会受到各种噪声的干扰。研究表明,绝大部分的噪声都可以用高斯白噪声来表示。噪声会严重影响图像的视觉效果,图像去噪作为图像恢复的一个经典问题,已经被研究了很长时间。然而,目前它仍然是一项具有挑战性和开放性的任务。其主要原因是,从数学的角度看,图像去噪的本质是一个逆问题,其解是不唯一的。
在过去的几十年间,图像去噪领域取得了巨大的成就[5-8]。在通常情况下,根据对图像的表示方法,图像去噪方法可以分为两类:空间域方法和变换域方法。空间域方法根据原始图像中像素/图像块之间的相关性计算每个像素的灰度值[9],以达到消除噪声的目的。与空间域方法相比,变换域方法首先将给定的噪声图像变换到另一个域,如频率域、小波域等,然后根据图像和噪声的不同特征对变换系数进行滤波处理(较大的系数表示高频成分,即图像的细节或边缘;较小的系数表示噪声),之后将处理后的系数投影回原始的空间域中,以将噪声从图像信息中分离出去。
1.2.1 空间域方法
一般来讲,空间域方法可以分为3类:空间域滤波、基于先验信息的正则化去噪模型、基于卷积神经网络(Convolutional Neural Network,CNN)的方法。
滤波是图像处理的主要手段,大量的空间滤波器被用于图像去噪[10-20]。空间域滤波器可以进一步分为线性滤波器和非线性滤波器两类。最初,利用线性滤波器去除图像的噪声,如均值滤波器、维纳滤波器[15,17],但其在图像上保留纹理和细节的效果并不好[16]。双边滤波器[11]作为一种非线性、保边的滤波器,在图像去噪领域得到了广泛应用。然而,双边滤波器的一个缺点是算法消耗时间较长。因此,空间滤波器在一定程度上消除了噪声污染,但付出的代价是使图像模糊,导致图像失去锐利的边缘。
由于图像去噪的不适定性,许多学者研究并发展了基于先验信息的正则化去噪模型。该模型的原理是对图像退化过程进行数学建模,再利用自然图像先验信息对解空间进行约束,从而估计所需的无噪图像。先验信息不仅能约束图像去噪问题的最优解满足唯一性,还能使图像符合人类视觉感知特性。因此,对于正则化去噪模型,最重要的步骤是找到一个合适的先验信息。现有的基于先验信息的正则化去噪模型包括基于梯度的先验模型、非局部自相似(Non-Local Self-Similarity,NSS)先验模型、稀疏性先验模型和低秩性先验模型。
从20世纪80年代开始,Tikhonov和Arsenin[21]将一个正则化项添加到数学模型中,从而提出了基于Tikhonov正则化先验的图像去噪模型。该模型是通过最小化图像梯度的L2范数实现的,但它会平滑图像的细节[22,23]。为此,Rudin和Osher等人[24]提出了一种基于梯度投影的全变分(Total Variation,TV)正则化模型,该模型基于TV的正则化方法来解决去噪图像的平滑性问题,这是该领域很有影响力的工作之一。与Tikhonov正则化模型相比,它将L2范数转到L1范数上来计算。TV正则化模型基于自然图像局部平滑、像素强度仅在大部分区域内逐渐变化的统计事实,在平滑噪声和保持边缘方面有较为不错的效果,但是它存在3个主要缺点:对纹理的保护不尽如人意,平坦区域容易产生阶梯效应,图像的对比度下降[25-28]。为了提高TV正则化模型的性能,近年来出现了大量改进算法。2004年,Lysaker和Osher等人[29]为了解决图像去噪时高阶偏微分方程的数值不稳定问题,提出了LOT模型,进一步增强了TV正则化模型的去噪能力,同时提高了数值的稳定性。阶梯效应的出现使平坦区域在去噪过程中产生了虚假边缘。为了应对这种阶梯效应,2008年,Zhu和Xia[30]在平均曲率流模型中耦合了梯度项,通过平滑图像的梯度对图像梯度加以控制,得到了较好的处理结果。2009年,Beck等人[31]提出了基于约束TV的快速梯度算法,这是一个可覆盖其他非光滑正则化模型的通用框架。虽然该算法提高了PSNR,但其只考虑了图像的局部特征,无法保持图像的整体结构。
显然,先前介绍的滤波方法与基于梯度先验的正则化方法都属于局部去噪方法。虽然局部去噪方法的时间复杂度较低,但当噪声水平较高时,这些方法的性能会受到影响,其原因是高水平噪声严重干扰了邻域像素的相关性。近年来,基于自然图像在不同位置包含大量相似图像块这一事实,大多数的先进算法都采用自然图像的NSS先验[32]来实现图像去噪。该类方法的一个开创性工作是非局部均值去噪(Non-Local Means,NLM)算法[33],其基本思想是以图像块作为处理对象进行逐点估计,对于每个图像块,利用其冗余信息搜索相似图像块并计算权重,通过加权平均相似图像块的中心像素来估计像素的真实值,即利用NSS先验以加权滤波的形式进行图像去噪。该算法为图像去噪开辟了一个全新的领域,许多关于NLM的改进算法也相继被提出[34-42]。受NLM算法的启发,人们提出了一系列基于非局部自相似先验的方法来解决各种图像逆问题[32,43-49]。例如,文献[32]和文献[49]提出了将非局部方法拓展到TV正则化中。考虑到TV正则化模型和NSS先验算法各自的优缺点,Sutour等人[49]提出了一种结合非局部自相似和TV正则化的自适应正则化去噪方法(R-NL)。结果表明,两种模型(局部TV模型和非局部自相似模型)是互补的。虽然许多基于NSS先验算法的去噪方法都取得了巨大的成功,但它们都单独估计每个像素,而不是直接估计去噪的图像块;同时,相似图像块数量不准确和图像块相似性度量标准单一,所有这些因素都可能导致NSS先验算法倾向于使图像过平滑,从而大大降低图像的视觉质量。因此,NSS先验算法进一步拓展和改进为基于字典学习的稀疏性先验方法[50]和基于相似图像块的低秩性先验方法[51,52]。
目前,许多图像去噪方法都利用了图像的稀疏性先验知识。作为一种字典学习方法,稀疏表示模型不仅可以从一个有代表性的数据集学习,还可以从待重建图像本身学习。K-SVD(K-Means Clustering for Singular Value Decomposition)算法[53,54]是解决底层非凸能量最小化问题的最流行和最强大的数值算法之一。如文献[53]所述,与所有其他字典相比,K-SVD字典在比特率低于1.5比特/像素(稀疏表示模型成立)的情况下,其PSNR可以高1~2dB。然而,这种算法是一种局部算法,它忽略了图像的非局部信息之间的相关性。在高水平噪声情况下,局部信息受到噪声的严重干扰,去噪效果不明显。结合NSS先验,图像的自相似稀疏性在图像处理领域得到了研究者的广泛关注[55-57]。Mairal等人[55]假设每个图像块都可以分解为一个基集合中几个元素的线性组合,在此基础上,他们提出了一种基于稀疏编码的图像恢复方法。Dong等人[57]提出了非局部聚集稀疏表示(Nonlocally Centralized Sparse Representation,NCSR)模型。NCSR模型自然地将NSS先验集成到稀疏表示框架中,是目前最流行的图像去噪模型之一。虽然NSS先验与稀疏性先验的结合很成功,但由于迭代字典学习和未知稀疏系数的非局部估计,这种方法对计算能力的要求很高,这极大地限制了它在现实应用中的适用性。
与稀疏性先验不同,基于低秩性先验的去噪模型将相似图像块重组为一个矩阵,矩阵的每列都是一个拉伸的图像块向量,并利用矩阵的低秩性进行图像去噪[58,59]。基于图像的低秩性方法最早出现在矩阵填充领域,并在Candès和Li等人[60]的推动下取得了很大的进步。近年来,低秩模型能够取得良好的去噪效果,因此对低秩去噪方法的研究也逐渐深入。图像去噪的低秩方法可分为两类:基于低秩矩阵分解[61-68]的方法和基于核范数最小化[51,52,69,70]的方法。基于低秩矩阵分解的方法通常将给定的数据矩阵近似为两个固定的低秩矩阵的乘积。例如,文献[63]提出了一种基于低秩矩阵恢复的图像去噪方法,取得了良好的效果。Dong等人[65]提出了一种基于奇异值分解(Singular Value Decomposition,SVD)的低秩方法,对非局部相似图像的稀疏表示进行建模,该方法利用贝叶斯框架中的奇异值迭代收缩来去除噪声。这类方法的主要局限性在于必须提供秩作为输入,并且过低或过高的值将分别导致细节丢失或噪声残留。另外,图像去噪可以作为一种低秩矩阵逼近问题。矩阵秩的最小化是一个非凸NP-hard问题[71],因此有人提出用基于核范数最小化的方法来近似矩阵秩的最小化。最初,Candès等人[60]提出可以通过解决核范数最小化(Nuclear Norm Minimization,NNM)问题恢复潜在低秩矩阵。基于NNM方法,Gu等人[51,52]引入了加权核范数最小化(Weighted Nuclear Norm Minimization,WNNM)方法。除低秩性外,该方法还利用了先验知识,即低秩近似的大奇异值代表图像的主要组成部分。从文献[51]可以看出,WNNM方法显示了最先进的去噪结果,相对于NNM方法,WNNM方法的PSNR平均值提高了1.3~2dB,并且噪声强度的鲁棒性比其他方法更强。虽然采用图像先验的正则化模型得到了较好的去噪效果,但该模型也存在一些缺陷。模型是手动设计的,它们涉及用户需要修复的参数,因此,人类的感知能力会限制其表现。此外,该模型需要通过求解一个复杂的优化问题得到满足先验条件的最优解,所以计算量大。
最近,基于卷积神经网络(CNN)的方法发展迅速,该方法在许多低层次的计算机视觉任务中效果良好[72,73]。CNN在图像去噪中的应用可以追溯到2008年,文献[74]提出了一个五层网络结构。在过去的几年中,CNN[75-81]被陆续引入各种图像去噪方法中,与文献[74]相比,去噪性能有了很大提高。基于CNN的去噪方法通过优化(退化—干净)包含图像对的训练集上的损失函数来学习映射函数[77,82],这类方法可以进一步分为基于最大后验概率(Maximum A Posteriori,MAP)的CNN方法和基于深度神经网络的去噪方法。
基于MAP的CNN方法,特别指涉及一系列卷积运算的基于后验概率推论的方法。这类方法不是通过建模图像先验去构建去噪模型,而是通过解决两级优化问题来学习先验参数和展开固定数量的推断步骤[83]。虽然这类方法与CNN没有直接联系,但是它们展开的推断实际上可以视为具有阶段性架构的CNN变体。在领域专家的开拓性工作[84]之后,Barbu[83]训练了一个判别马尔可夫随机场(Markov Random Field,MRF)模型,用于图像去噪的梯度下降推理。Samuel和Tappen[85]提出了一个固定的梯度下降推理学习框架,并讨论了基于CNN框架的优势。Sun和Tappen[86]提出了一个新的非局部范围MRF框架,并采用基于梯度的识别学习方法对模型进行训练。Chen和Pock[77]通过展开固定数量的梯度下降推断步骤,进一步提出了一种可训练的非线性反应扩散模型,并证明其能够达到更好的去噪效果。然而,已知的先验和推理过程受到MAP模型形式的限制,该模型在捕获图像结构的全部特征方面效果有待提高[78]。
随着深度卷积神经网络的发展,许多使用不同深度学习技术的方法应用在图像去噪问题上,并取得了良好的去噪效果。Zhang等人[78]首次将残差学习和批量归一化引入图像去噪问题中,提出了前馈卷积神经网络(Denoising Convolutional Neural Network,DnCNN)。虽然经过训练的DnCNN也能处理更一般的“噪声”,如压缩误差和插值误差,但是用σ训练的模型很难直接应用到其他噪声水平的图像上。当噪声水平未知时,去噪方法应允许用户自适应控制降噪和细节保护之间的权衡,因此满足这种理想性能的一种灵活的去噪方法FFDNet(Fast and Flexible Denoising Convolutional Neural Network)[79]应运而生。具体来说,FFDNet的主要优点是它可以在下采样的子图像上工作,这在很大程度上加快了训练和测试的速度。这类方法虽然有效且运行时间较短,但是学习过程非常耗时,从几小时到几天不等。
1.2.2 变换域方法
图像去噪方法从最初的空间域方法逐渐发展到当前的变换域方法。最初,变换域方法是基于傅里叶变换开发出来的,并且随着发展逐渐出现了各种变换域方法,如滤波方法(余弦变换、小波域方法[87-89])和三维块匹配滤波[48](Block-Matching and 3D Filtering,BM3D)方法。变换域方法基于以下原则:变换域中图像信息和噪声的特征是不同的。与空间域滤波方法相比,变换域滤波方法首先将给定的噪声图像变换到另一个域,然后根据图像和噪声的不同特征对变换后的图像进行去噪处理。变换域滤波方法根据基变换函数的选择进行细分,基变换函数可以是数据自适应或非数据自适应的[90]。在给定的含噪声图像上,数据自适应滤波方法将独立分量分析[91,92](Independent Component Analysis,ICA)函数和主成分分析[93,94](Principle Component Analysis,PCA)函数作为变换工具。其中,ICA函数成功地实现了非高斯数据的去噪。这两种函数都是数据自适应的,对图像和噪声差异的假设仍然成立。它们的主要缺点是计算成本高,因为它们使用滑动窗口,并且需要无噪声数据的样本或同一场景的至少两个图像帧。但是,在某些应用中,很难获得无噪声训练数据。非数据自适应的变换域滤波方法进一步细分为空间频域滤波方法和小波变换。空间频域滤波方法是指通过设计一个频域滤波器来使用低通滤波,该滤波器允许所有低于截止频率的频率通过,并衰减所有高于截止频率的频率[15,17]。然而,这些方法是费时的,具体时间取决于截止频率和滤波器的功能。在图像去噪领域,研究最多的变换是小波变换[95],在小波变换中输入数据用其尺度空间表示。已经证明,不管其频率如何,使用小波变换可以成功地在去除噪声的同时保留图像特征[94,96-100]。小波变换具有稀疏性和多尺度性等特点,目前其在图像去噪领域仍处于活跃状态[101],但小波变换在很大程度上依赖小波基的选择,其与基于稀疏表示的字典法的区别在于,变换域方法通常使用固定基函数表示图像信息,而字典法使用冗余字典来表示图像信息。
由Dabov等人[48]提出的BM3D方法作为NLM方法的有效的、强大的拓展,是目前最先进的图像去噪方法之一。BM3D方法是变换域中的两阶段非局部协同过滤方法,该方法通过块匹配将相似图像块叠加成三维组,并将三维组转化为小波域。然后,在小波域中采用带系数的硬阈值或维纳滤波。最后,对系数反变换后的所有估计图像块进行聚集,重建整个图像。然而,当噪声逐渐增大时,BM3D方法的去噪性能大大降低,尤其是在平坦区域会引入伪影。为了提高去噪性能,学者们基于BM3D方法开发了许多改进版本[102,103]。例如,Maggioni等人[103]提出了一种BM4D去噪方法,将BM3D方法拓展到体积数据。该方法使用被堆叠成一个4D组的体素立方体,应用于该组的4D变换,同时利用了体素的局部相关和非局部相关。因此,该4D组的频谱非常稀疏,并且通过系数收缩可以有效地分离原始图像和噪声。
纵观图像去噪的发展历史,各种去噪模型都取得了长足的发展和不错的效果。无论是去噪效果,还是模型的稳定性等,都是图像去噪领域的研究者所关心的。当然,该领域还有很长的路要走,很多问题仍待研究者进一步解决。