计算机视觉中的深度学习
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.2 计算机视觉的发展沿革

计算机视觉发展至今已有七十余年的历史。20世纪50年代兴起的统计模式识别被认为是计算机视觉技术的起点,当时的研究方向主要是对二维图像的处理分析,如光学字符识别(Optical Character Recognition,OCR),以及物体表面、显微图像和航拍图像的分析处理。20世纪60年代,借助计算机程序,Roberts从数字图像中提取出立方体、楔形体、棱柱体等多面体的三维结构,并描述物体形状及其空间关系,三维计算机视觉的研究工作得以开展。Roberts对三维场景的创造性研究给研究人员带来了新的研究方向。研究人员对简单三维场景进行了广泛而深入的研究,研究范围包括边缘检测、角点特征提取、曲线和平面等几何要素分析等,并建立了许多种数据结构和推理规则。

20世纪70年代中期,David Marr提出了一种计算机视觉理论[1],该理论不同于Roberts的分析方法,而是将计算分析和神经科学联系在一起,尝试使用算法模拟人类的神经结构。该理论在20世纪80年代成为计算机视觉研究领域中非常重要的理论框架。

20世纪80年代,计算机视觉进入了快速发展时期,计算机视觉的全球性研究热潮开始兴起。出现了诸如基于感知特征群的物体识别理论框架、主动视觉理论框架和视觉集成理论框架,无论是对二维信息的处理,还是针对三维图像的模型及算法研究都有了极大的提升。许多关于计算机视觉理论发展的意见和建议相继出现,对David Marr的理论框架做了批评和补充。

20世纪90年代,计算机视觉理论进一步发展,并开始在工业领域中得到应用。在一些人工作业危险系数较大的工作环境,或者人类视觉难以满足需求的场景中,可以借助计算机视觉这种非接触方式,利用机器人替代人类完成任务。同时,在大规模高重复性工业生产场景中,借助计算机视觉,机器人替代人类工作可以大大提高生产效率和自动化程度,节省生产成本。

进入21世纪,计算机视觉技术已广泛应用于生产和生活的许多领域。在生产过程中应用于智能制造的某些环节,如工业探伤和自动焊接;并应用于智能生活之中,如智能医疗、智能交通和智能家居。从2012年ImageNet[2]挑战赛使用AlexNet[3]网络取得出色成绩以后,各种网络结构层出不穷,在很多任务中卷积神经网络(Convolution Neural Network,CNN)已远远超过传统方法。