计算机视觉中的深度学习
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.3 计算机视觉的主要任务及其应用

计算机视觉是一个紧密贴近应用的技术领域,包括图像分类(识别图像中的指定对象或人,或输出该对象所属的分类)、图像检测(对每个对象用方框作为边界标注图像)、图像分割(用连续的曲线将对象逐个圈出)、图像生成(通过低分辨率图像生成对应的高分辨率图像的代表物)等。本节将首先介绍四种典型的计算机视觉任务——图像恢复、图像识别、动作分析和场景重建,最后再介绍一种典型应用——行人再识别。

1.3.1 图像恢复

在拍摄图像时可能会遇到拍摄环境不好(如恶劣天气)、拍摄主体的状态不佳(如设备与物体间发生相对运动)、拍摄设备的性能不佳(如成像系统散焦)等问题,拍摄到的图像就会因此产生噪声、模糊等质量下降等现象(称为退化图像),从这样的图像中提取细节信息就会变得更加困难,从而影响后续图像处理。要提高图像的质量,就要针对质量下降的原因做出相应的处理,这就是图像恢复。图像恢复旨在从拍摄到的图像中去除噪声、模糊,实现提高图像质量的目的,进而解决一些对图像质量有较高要求的问题。

图像恢复首先要从大量“退化图像—原始图像”对中提取出先验知识,在此基础上对新的退化图像进行恢复。图像恢复相当于图像退化的逆过程——首先分析图像退化的整个过程,在此基础上建立图像退化的数学模型,通过对模型进行适当的调整,补偿退化过程中的失真,使复原图像趋近于原始图像。但由于原始图像与退化图像的映射关系不是一一对应的,所以图像恢复蕴含着不确定性。本小节以图像“超分辨率技术”为例阐述图像恢复的具体应用。

图像的分辨率是图像评价标准中的一个重要指标,图像分辨率越高,所呈现的细节就越多,可通过图像得到的信息就越多。如果图像的分辨率过低,则从其中得到图像的细节信息就会十分困难,这将影响后续图像处理的相关操作,所以“超分辨率技术”是计算机视觉领域中的重点研究课题。基于这种技术可以解决一些由低质量图像传感器(如低清/标清摄像拾取设备)带来的分辨率低的问题,可以充分发挥更高分辨率设备的效果。

基于深度学习的超分辨率技术,凭借其优异的重建效果吸引了研究者的注意。此类方法不需要与传统方法一样使用插值或通过多张图像的映射来获得高分辨率图像。它通过卷积神经网络,将更多的图像像素信息作为输入的有效信息,提供更多可供利用的先验信息,以得到更优秀的图像重建效果。

1.3.2 图像识别

图像识别是计算机视觉中的经典问题,图像识别技术用于确定图像中是否包含某些特定的对象、特征或活动。图像识别在许多领域都有重要的应用,如在交通管理行业抓拍车辆、在航空航天领域分析遥感图像或在公共安全领域定位特殊人员。本小节以目标检测和目标分割两个任务为例阐述图像识别的应用。

1.目标检测

目标检测通过分析待提取目标的特征,对图像中的目标进行识别和定位。随着近些年计算机硬件能力的提升、大容量数据集的诞生和深度学习技术的发展,目标检测的性能得到了极大的提升,从而得以在产业界中被广泛应用。

目标检测性能的好坏将直接影响后续高级任务的性能,如目标跟踪、动作识别和行为理解。然而,目标物体在实际场景中常有多种尺度和多种形态,同时也面临自然环境因素的影响,如光照、遮挡、复杂背景等。因此,目标检测技术仍然是一项具有挑战性的科研课题。当前面对的主要挑战包括:如何提高目标定位的准确度和速度;如何减小目标尺度和形变对检测的影响;如何减少背景干扰等。

深度学习技术与目标检测算法的结合日益成熟,算法的性能有了明显的提高,但为了满足实时的需求,现有的检测算法仍需要精简流程,以便将其推广到更多的应用场景当中。

2.目标分割

目标分割技术是将图像中的每个像素分为不同的类别,实现从图像低层语法特征到高层语义信息的推理过程,最后得到不同区域的逐像素标注的分割图(如图1-1所示)。

图1-1 目标分割任务示例图

对于视频中的运动目标,目标分割技术会提取视频序列底层的视觉信息并加以整合,形成具有高层语义的视频对象,为后续的目标识别、目标跟踪和视频内容理解提供必要的依据。对视频中的运动目标分割的准确度将直接关系到后续计算机视觉任务(如基于对象的视频编码、基于对象的视频检索和基于对象的多媒体数据库等服务)的质量和效率。

目标分割目前面临的困难主要有如下三个方面。

1)目标分割的效果受实际场景的影响较大

通常,实验场景中的背景图案不复杂,物体的数量和种类也不多,物体易于识别。但是在实际环境中,场景中物体的数量和种类都很多,背景错综复杂,使算法在实际场景中的分割效果往往比实验中要差。

2)目标的大小及图像的质量对分割效果影响较大

对于建筑物、地面和天空等比较大的对象,或者对质量较好的图像,其特征较为明显,容易捕获,因此分割效果较好。但是在面对较小的目标(如人、自行车和小动物)或在面对低质量图像时,特征不容易被捕获,分割效果会受到影响。

3)物体之间的相似性较强

某些物体具有比较强的相似性,例如在图像中面积占比不大的情况下,很难将人行道和路面,或者将牛和羊进行区分。

解决以上困难将提高目标分割在复杂的现实场景中的效果,推广目标分割的应用范围,也能够将目标分割与更多的领域相结合并发挥其效力,对技术的落地会有很大帮助。

1.3.3 动作分析

许多计算机视觉的任务需要进行动作分析,动作分析包括估计图像中每个像素点处的运动速度,估计相机相对于物体的运动速度,还需估计物体与相机的相对位置关系等,进而通过分析识别出被摄物体的三维姿态与动作。动作分析技术主要用于目标跟踪,与人机交互、视频监控、无人驾驶和增强现实等领域相结合,发挥了重大的作用。

目标跟踪任务是在视频序列中找到需要跟踪的目标,为下一步对视频的分析和理解服务。目标跟踪并不是一个孤立的任务,它常常与目标检测、目标识别、显著性分析等众多计算机视觉任务结合在一起,进而实现场景理解。

目标跟踪技术正在不断发展,近年来目标跟踪与深度学习的结合使目标跟踪技术获得了突破性的进展。但目标跟踪技术实际投入使用时面临的挑战依旧十分巨大,仍然存在着许多亟待解决的困难。

1)目标本身在图像中发生变化,可能出现尺寸变化、形状变化、目标缺失或者丢失的情况

目标本身尺寸缩小或变大,或是摄像头的拉近或推远,都会使目标的尺寸发生变化,算法需要估计目标的大小变化,保持对目标的持续跟踪。在跟踪过程中,目标可能发生非刚性的形变。目标的外观发生了变化,算法需要对形变有一定的适应性。在跟踪过程中,目标物体免不了会被障碍物部分遮挡或者完全遮挡,也有可能发生目标逃离了摄像机覆盖的范围从而在画面中消失的情况,算法需要通过残缺的特征来捕捉目标。目标快速运动时,目标的运动范围大,下一帧的目标状态不好预估,同时也会引起图像画面模糊,增大跟踪的难度。以上这些情况,都有可能在目标跟踪过程中发生,目标跟踪算法需要应对这些突发情况,保证跟踪的准确性。

2)跟踪场景对目标跟踪产生影响

在有些场景中,背景的颜色、纹理上有可能与目标非常接近,有可能场景中的光照分布不均匀或者会随时间的推移发生变化,也有可能目标附近存在其他外观形状与目标非常相似的物体。由于相似信息的干扰,这时目标跟踪算法所估计出的结果很有可能会漂移到图像的背景中或者周围相似的物体上。跟踪算法应能够排除嘈杂背景的干扰,也需要能够从多个相似的物体中成功定位真正的目标。

3)目标跟踪算法需满足实时性需求

在人机交互、视频分析和视觉导航等应用中,对目标跟踪算法有较强的实时性需求,因此跟踪算法的高效性也是必不可少的。

当目标跟踪过程中面临上述任何一个问题时,算法的稳定性、准确性和实时性都会受到影响,还有可能导致算法定位到错误的目标物体上,造成跟踪失败。到目前为止,几乎所有主流的目标跟踪算法都是针对某一种或某一些情景下的目标跟踪任务而设计的,并没有一种算法能够同时将上述困难全部解决,即不具有很好的泛化性。所以,目标跟踪算法的研究仍然有十分长远的前景。

1.3.4 场景重建

场景重建任务是指,在已知场景或视频中的若干图像的条件下,使计算机理解该场景并重建出场景的三维模型。用最简单的方法重建出的模型是一组三维模型的点集,更复杂的方法可以生成该对象完整的三维表面模型。最新的算法可以将多个三维图像拼接成点云或三维模型。

1.3.5 行人再识别

随着科技的发展与我国平安城市建设的推进,社会公共安全得到了越来越多的重视,大量的监控摄像头布置在公共道路、学校、居民区、商场、车站和机场等公共场所。据行业信息调查公司IHS Markit的统计数据显示,截至2017年,中国在公共和私人区域的监控摄像头安装量已达1.76亿个,并且预计在2020年将达到6.26亿个。这些数量众多且监控区域大、跨度大的摄像头为安防系统中的后续模块提供了海量的视频数据。面对如此庞大的数据量,采用传统的人工方法进行处理显得效率低下且不切实际。因此,必须依靠计算机智能算法自动地分析这些视频数据,同时提高数据处理的效率和可靠性,从而提高监控的质量。

行人再识别作为计算机视觉中的一个重要研究方向,其主要目的是匹配非重叠摄像机视角下具有特定身份的行人图像,使监控系统能够自动地从行人图像库中查找出具有特定身份的行人,在节省人力的同时也提高查找速度。

在大型视频监控网络中,不同的摄像头分布式地布置在多个位置,它们拍摄的视域往往是不重叠的,行人再识别就是对不重叠视野下拍摄的图像或视频中的行人进行匹配的技术。当一个行人从一个摄像头的监控区域移动到另一个摄像头的监控区域时,行人再识别技术将建立多个不同摄像头监控人物的对应关系,实现跨多个摄像机的跟踪。

行人再识别技术已在安防领域得到了广泛应用。比如,通过部署在各个场景的大量的监控探头,在锁定犯罪嫌疑人身份的同时,又可以重现嫌疑人轨迹,大大提高了刑侦破案的效率;再如,目前安检方面主要应用的是人脸识别技术,要求来往的行人拍摄相对清晰的正脸照,对拍摄角度和光线等要求较高,而行人再识别技术,可以通过行人的侧脸、局部动作和姿态等进行识别,极大地加快了安检的速度。

除此之外,行人再识别还可以运用于商场中的用户行为分析,例如估计顾客的年龄、性别、感兴趣商品类别和在不同店铺的停留时间,从而帮助商场进行相关的决策和部署等。另外,行人再识别还可以运用于图像的智能聚类,比如用户手机相册的“照片分类”。

除了上述广泛的应用价值,行人再识别在学术领域也具有研究价值。高效的特征提取和特征度量算法,可以得到高可信度的匹配结果,进而促进人脸识别和目标检索等相关技术的研究,从而推动计算机视觉领域的发展。因此,许多学者在行人再识别方向投入了大量精力,并公布了多个相应的公共数据集,提出了性能优异的算法。

行人再识别技术也带来了很多挑战,如时间和空间的多样性造成了检测方向和检测条件的差异。在不同时空位置的监控视频中,当某个行人在一个视野中消失时,可能需要在其他的一个或多个视野中,在一定的时间范围内对他进行关联匹配,并把他和其他相似的行人进行区分。这些视野可能具有不同的角度和拍摄距离,因而有着不同的动态或静态背景、光照条件和遮挡程度。例如在拥挤的环境中,摄像头在未知距离下进行拍摄,并依靠传统的生物识别技术(如人脸识别),但由于缺乏足够的约束条件且图像细节不充分,无法提取可靠的生物特征。再如,多数人在冬季出现在公共场合时会穿着深色衣服,所以大多数颜色像素并不能提供关于身份的信息。这个问题可以进一步复杂化,如同一个人的外表可能因为摄像头拍摄角度、光照、背景和遮挡程度等因素而产生很大差异。这些因素会导致行人再识别效果下降,严重时不同身份的行人可能会比相同身份的行人更加相似。

对于特征提取而言,特征的辨别力、可靠性和可计算性主要取决于摄像机的观察条件和给定视野中捕获的不同人物的独特的外观特征。理想情况下,由图像提取出的特征应该具有良好的普适性,尽量不受光照、视角、背景、图像质量和分辨率等因素的影响。然而,在行人再识别中,目前还不清楚是否存在效果良好的普适性特征,使其可以便捷地应用到不同的摄像机视野和行人数据中。此外,难以得到齐整的行人切割区域、难以精确分割行人和背景,也使得提取可靠的特征来描绘目标这一问题变得更加困难。

行人再识别机制将轨迹或包含行人的图像区域作为输入,这些输入数据是由跟踪或检测算法生成的。行人再识别的算法一般包含以下步骤:提取比原始像素数据更健壮、更可靠和更简洁的图像特征;构造描述符或某种表示方式,如果能够描述和辨别不同个体的特征直方图;通过测量图像之间的相似性,或者使用基于模型的匹配过程,在另一个摄像头视图中匹配指定的探测图像或轨迹。这样的处理步骤对特征表示算法和系统设计提出了一定的要求。