计算机视觉中的深度学习
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

前言

计算机视觉,顾名思义,是指利用计算机获取、分析和处理图像和视频中信息的技术,使计算机具有接近人类视觉系统的能力。从学术研究的角度,计算机视觉技术从现实世界中提取高层次的信息,产生特征和语义信息,可理解为人脑将图像(视网膜的输入)转换为可以与其他个体交互并产生影响的信息,可以看作利用几何学、物理学、统计学习理论构建模型,并从视觉数据中提炼符号信息的过程。研究人员希望计算机可以像人类一样,将外界输入的光信号转换为对外界的理解与认知,这将会促进人类科技与社会的发展,创造更高的科研价值。

深度学习作为机器学习的一个分支,以人工神经网络为基本框架,通过数据驱动的方式提取大量的数据规律和特征,它的出现大大提高了诸多机器学习任务的效果。除了在计算机视觉领域,深度学习在语音识别、自然语言处理、控制工程领域中都有广泛应用。

我们利用深度学习这一新工具,结合计算机视觉的具体任务编著此书。我们的研究团队是一线教师,专注图像编码、解码技术30余年,拥有多项课题和研究成果,部分成果曾获国家科技进步二等奖。2013年之后,我们结合自身优势,顺应人工智能研究复兴的趋势,在计算机视觉领域深度耕耘,本团队有成果相继发表在IJCAI、ICME和VCIP等人工智能和多媒体领域的学术会议相关文献上。本书的部分成果,也来自于团队的研究成果。

本书采用图像处理技术和深度学习方法双主线结构,根据不同的计算机视觉任务,针对该领域近年的热点问题和主要解决方案,进行了细致的讲解和深入分析,其内容既可以帮助研究生等科研人员快速熟悉该领域发展脉络和现状,又可以引发资深从业人员的思考,提供新的研究思路。

本书第1章到第4章介绍计算机视觉的发展和基础理论,从5章到第11章介绍计算机视觉的具体任务,让读者进一步理解前文介绍的理论知识,并讨论相关任务的经典工作。

本书主要作者为姜竹青、门爱东、王海婴,参加本书编写的人员及主要分工如下:第1章介绍计算机视觉的发展脉络和主要任务,由梁涛负责编著;第2章介绍图像的基本知识,由周兆京负责编著;第3章介绍深度学习的原型——神经网络的基础理论与基本概念,由潘婷负责编著;第4章介绍神经网络结构,由李凯负责编著;第5章介绍计算机视觉中的目标分割任务,第6章介绍计算机视觉中的目标检测任务,第8章介绍计算机视觉中的行人再识别任务,这三章由姜竹青老师负责编著;第7章介绍计算机视觉中的目标跟踪任务,由隗立阔负责编著;第9章介绍计算机视觉中的图像压缩任务,由王小菘王雅楠和刘超见负责编著;第10章介绍计算机视觉中的超分辨率重建任务,由岑桂彬和汪千淞负责编著;第11章介绍计算机视觉中的图像去噪技术,由崔晗负责编著。刘畅和李昊天负责整理全书的参考文献。全书由姜竹青老师负责统稿,门爱东老师和王海婴老师参与研讨修订过程,并提出了很多宝贵的意见,纠正了书中的缺漏。

附录A的术语与缩略词表提供了单词缩写,英文原文及中文解释。

本书的完成要感谢研究团队成员的倾力参与。感谢本团队业已毕业的同学们——崔圆圆、宋辉、赵怀瑾、娄英欣、郭亚靖、黄守志、韩卓、聂凡杰、何珂、莫博瑞、李宁宁、郭天生、郑苏桐、胡潇,于百忙之中抽出时间为本书的编纂给予了大力支持。

最后,由于作者水平有限,本书难免出现纰漏,欢迎各位读者批评指正。由于图像处理本身具有一定主观特性,深度学习的可解释性弱,其中一些观点未必全面,欢迎各位读者探讨。祝大家阅读愉快!