计算机视觉中的深度学习
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.1 计算机视觉的定义

人类视觉系统主要由眼睛、外侧膝状体以及视皮层组成,通过这三部分完成对外界光线的感知并形成视觉的功能。计算机视觉,顾名思义,是指利用计算机进行图像和视频中获取、分析和处理,使其具有接近人类视觉系统能力的学科。

从学术研究角度看,计算机视觉从现实世界中提取高层次的信息,产生特征和语义信息,并将图像(视网膜的输入)转换为可以与其他个体交互并产生影响的信息,其过程可以看作利用几何学、物理学、统计学习理论构建模型,并从视觉数据中提炼符号信息的过程。研究人员希望,计算机可以像人类一样,将外界输入的光信号转换为对外界的理解与认知,这将在一定程度上促进人类科技与社会的发展,创造更高的科研价值。

而对于计算机视觉相关专业的从业者来说,计算机视觉旨在将其理论和模型应用于计算机视觉系统的构建。

由于计算机视觉的主要任务是模拟人类视觉,从而可以代替人类完成某些基于人类视觉的任务,因此计算机视觉的主要任务与人类视觉系统的主要任务是一致的。计算机视觉的主要任务包括场景重建、事件检测、视频跟踪、对象识别、三维姿态估计、运动估计和图像恢复。