1.4 人脸图像超分辨率重建技术的研究与应用
1.4.1 人脸图像超分辨率的发展及国内外研究现状
人类作为社会活动的主体,是视频和图像之中常见的一类对象。人脸图像的处理和识别等问题一直是人工智能计算机视觉领域的一个重要研究方向。近年来,随着技术的发展,人脸识别、人脸检测等技术都取得了一定的研究成果。在智能手机、监控设备等便携设备上,也能实现人脸的检测、识别等。区别于普通图像,不同人脸图像之间通常具有相似的面部结构与纹理细节。因此,研究如何针对人脸图像提高超分辨率重建效果具有重要的现实意义。
图像超分辨率重建的概念最早是由Harris[83]和Goodman[84]于20世纪60年代提出的,随后涌现了众多研究者为这一概念提供数学算法[85-86],只可惜这些算法只能应对少量条件下的重建任务,并不能被广泛应用。直到20世纪80年代,图像超分辨率重建才重新激起了科学家的兴趣。目前,超分辨率重建方法根据操作域与重建思想的不同,可以被划分为以下几种类别,如图1.9所示。
图1.9 图像超分辨率重建方法分类
根据操作域的不同,超分辨率重建算法可分为频域和空域两大类。其中,基于频域的算法基本思想是在频域内完成图像转换、建模及模型求解等一系列任务。这类方法最早是由Tsai [87]提出的。重建时,首先需要将图像转换到离散傅里叶变换域,之后通过离散傅里叶变换的移位和混叠特性完成超分辨率重建。在这之后,离散余弦变换[88]和小波变换[89-90]也被广泛应用于基于频域的重建方法中,以减小模型的计算复杂度,更有效地恢复图像的高频信息。基于频域的超分辨率重建算法模型简单,并且在处理非整体运动模型时存在一定的局限性,于是,研究人员转向了对空域方法的研究。
空域是图像的原始域,基于空域的方法直接通过改变图像像素来实现超分辨率重建。根据建模原理的不同,基于空域的超分辨率重建方法可以分为三大类:基于插值的方法[91-92]、基于重建的方法[93-95]和基于学习的方法。
基于插值的方法依据自然图像的局部平滑性理论,利用低分辨率图像的已知像素值来估计高分辨率图像上的未知像素值。根据插值核函数或基函数的不同,可以将插值方法分为不同类别。目前,最常见的线性插值算法有双线性插值算法(Bilinear)[96]和双三次插值算法(Bicubic)[97]。基于插值的方法实现简单且实时性高,但由于基函数或核函数的连续性不能应用于图像全局,重建图像通常缺乏高频细节和边缘信息,过于平滑。
基于重建的方法也可称为基于退化模型的重建方法。其主要思想是将低分辨率图像视为高分辨率图像经过一系列降质运算的结果,从而通过求解降质逆运算恢复高分辨率图像。比较典型的算法有迭代反投影法[93]、统计复原法[94]、凸集投影法[95]等。目前,基于重建的超分辨率重建技术已经步入了一个成熟的发展阶段,但也有其缺陷。研究表明,基于复原模型方法的重建效果会受到放大倍数的限制,当放大倍数提高到一定程度时,该方法无法再获取更多的高频信息。
基于学习的方法能够学习高低分辨率图像对之间的映射关系,针对特征较明显且存在一定规律的图像(例如文字图像、人脸图像等),这类方法可以获得非常清晰的重建结果。早期的基于学习的方法[98-100]一般将训练图像整体分割为一系列的图像块,通过训练样本,学习图像块之间的映射关系,完成低分辨率到高分辨率的转换。在重建阶段,该方法会对输入图像进行相同的分割,逐块重建之后统一拼接为完整的图像。这种分块计算的方法能够降低超分辨率重建算法对系统硬件资源的要求。近些年来,随着计算机运算能力的大幅提升与卷积神经网络的发展,基于深度学习的方法得到了广泛研究。这种方法能够以端到端的方式学习整体图像映射,重建结果更为逼真。