基于深度学习的目标检测原理与应用
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.2.1 计算机视觉三大主要任务

计算机视觉的三大主要任务是分类、检测和分割。图像分类(Image Classification)将图像结构化为某一类别的信息,用事先确立好的类别和实例来描述图像,是最基础的图像理解手段。图1-2-1(a)所示为图像分类,包括瓶子(bottle)、茶杯(cup)、立方体(cube)。图1-2-1(b)所示为目标检测(Object Detection),包括定位和识别两部分,定位需找到物体的位置,找到瓶子、茶杯、立方体的位置并给出识别标签。分割是对图像的像素级描述,赋予每个像素一个类别意义,适用于理解要求较高的场景,如无人驾驶中对道路和非道路的分割。分割包括语义分割(Semantic Segmentation)和实例分割(Instance Segmentation),语义分割是对背景分离的拓展,要求分离具有不同语义的图像部分,如图1-2-1(c)所示,例如,为区分图像中属于杯子的所有像素,把这些像素涂成浅灰色;实例分割是检测任务的拓展,要求描述目标的轮廓,针对个体而非类别,如图1-2-1(d)所示,瓶子是蓝色的,杯子是绿色的,不同的个体颜色表示也不同。

资料来源:Andrew Ng Coursera目标检测课程。

注:彩插页有对应彩色图片。

图1-2-1 分类、检测与分割

对单物体而言,分类就是通过算法对整幅图像给出一个最大置信度的类别标签;定位即加上具体的红框,标示位置并且给出标签,如图1-2-2所示。对多物体而言,分别标示物体位置且写下猫、狗和鸭标签,如果前期能够准确检测,则分割会变容易,因此,目标检测是计算机视觉领域首要解决的问题。

资料来源:Andrew Ng Coursera目标检测课程。

图1-2-2 目标检测猫狗分类示意