第一章 绪论
第一节 视觉与视觉计算
一、视觉
视觉源于人类或高阶生物对外界刺激产生的一种感觉,这种刺激促使视神经元细胞产生兴奋,进而产生视觉。生物机体借助视觉,能够感知外界物体的大小、形状、颜色、结构、距离及运动等特征信息。研究表明,80%以上的信息由视觉提供,视觉信息加上从其他感知系统获得的信息(如听觉、嗅觉、味觉、触觉等),由各感知通道相互协作处理,对生物机体的生存与发展具有重要意义。
视觉是感知系统中最重要的一个通道,主要通过视觉系统的感觉器官(眼)感知外界刺激。这些外界刺激主要由外界环境中一定频率范围的电磁波形成,人类与大部分哺乳动物所能感知的电磁波波长为380~760nm。这一波段内的电磁波能够被视觉系统以光的形式接收,也称为可见光。这些能够被视觉感知的光信号具有直线传播、光速传输及不依赖于具体介质等特点,同时光信号的特点保证视觉系统感知外界刺激时能够准确判断外界物体的大小、形状、颜色、结构、距离及运动等特征信息。可见光的频率与波长决定光的颜色,可见光的色散谱根据频率与波长依次为红、橙、黄、绿、青、蓝、紫,在可见光范围内频率低波长长偏向红,频率高波长短偏向紫。可见光的强度决定光的亮度,即相同频率波长可见光的光子数目越多,光子活动越剧烈,其光亮度越高。
可见光通过角膜到达瞳孔,经瞳孔对光的调节到达晶状体,进而在视网膜上成像形成物像。物像在视网膜上经过视杆细胞与视锥细胞两种光感受器内的视紫红质蛋白检测光,如是否有光信号、光的强度、光照的角度及光源的位置等信息,光感受细胞将检测到的光信号转换为生物神经电信号并传输至双极细胞,然后到达神经节细胞形成视神经,神经细胞之间通过突触对神经信号进行逐级综合处理,传导至大脑视觉中枢,最终形成视觉。
视觉信息离开眼球后先到达视交叉,两只眼睛将接收到的信息在视交叉进行重新拆分处理,即由左眼与右眼分别感知到的右侧视觉信息传输至左侧大脑、由左眼与右眼分别感知到的左侧视觉信息传输至右侧大脑。离开视交叉后,视觉信息分别被传递至视交叉上核、上丘和外侧膝状体三个部分。视交叉上核位于视交叉上方,主要影响生物节律(即生物钟);上丘位于中脑四叠体,主要参与由光、声音等外界刺激产生的眼动神经活动,研究表明,眼动的模式与视觉信息的提取、自闭症、社交障碍等疾病相关;外侧膝状体位于丘脑,主要完成视觉信息更细粒度的处理,包括视觉细节特征的提取、分类及整合等,经视放射传递至初级视皮层。视觉信息将在初级视皮层区分发给多个高级脑区,再经高级脑区进行更加细致的后续处理。视觉信息流在不同的脑区之间反复传递,从而影响生物体的行为与思想,完成视觉认知外界的基本功能。
二、视觉计算
视觉系统有序而高度复杂,各视觉功能区相互连通且功能各异,对视觉信息相互协同组成视觉神经环路共同完成视觉认知。迄今交叉科学研究最多的一个领域便是生物机体的视觉系统,因为针对视觉系统的研究具有较为理想的动物替代模型,如借助于灵长类动物猴子的视觉机理来探究人类的视觉系统,人类自身视觉研究的经验积累又可进一步推进动物模型的视觉感知机理的实验、假设与论证。视觉作为主要的信息源为生物机体提供最丰富的信息,因此视觉系统的诸多特征及其对人类自身的影响引发科学家强烈的研究兴趣,且视觉系统研究人员的人数也远远超过其他神经科学研究领域,同时,心理学、生理学及人类行为学等相关研究又推动了视觉系统的研究。
近年来,视觉研究已成为感觉认知研究中的一个重要领域。一方面,其主要研究视觉信息如何在视觉系统中转换与处理,进一步揭示视知觉的神经机理并为认知与研究脑提供重要依据;另一方面,视觉研究的相关成果具有重要的实际应用意义,如在疾病医疗方面视觉的神经机理研究成果可直接指导治疗如弱视、眼盲、糖尿病视网膜病变及色盲等眼科疾病。
其他相关视觉研究还包括立体视觉、颜色视知觉、运动等视觉神经机理的研究,随着科学家对视觉研究的进展,从最初揭示可见光在视网膜及视皮层的信息转换到视觉功能脑区内部,神经元电信号的发放机制及其在整体大脑层级上研究视觉信息的编码、传递与处理,以及与人类知觉、心理及行为等相关的大脑视知觉神经机理方面的研究,由表及里不断深入。
目标识别也是视觉研究的基本问题之一,同时也是计算机视觉领域的关键问题之一。人类可以轻而易举辨别出无序场景中各种目标物体,但是对于计算机这有些困难。尤其是复杂环境背景下的目标识别,人类能够在短时间内有效完成计算机难以完成的事,这些特征与问题吸引了科学家探究其原因。因此,基于人类视觉感知机理的研究、基于视觉注意机制的目标识别问题又成为人工智能研究领域的一个热点与核心问题。
此外,在人工智能研究领域,借鉴人类大脑视觉感知、视觉通路及视觉皮层对于视觉信息的编码、整合与处理机制,可将其研究成果应用于计算机图形图像处理、模式识别等方面的计算模型构建与相关算法设计。随着现代计算科学与芯片技术的不断发展,基于生物视觉感知机理并采用计算机模拟视觉感知机制,科学家们针对视觉系统提出了新的计算模式,即视觉计算。其相关研究成果可直接应用于机器视觉、图像分析与模式识别等智能化计算与研究,甚至对于新型计算机体系结构的设计与研制也具有创新指导作用。针对视觉计算的理论研究源于马尔视觉计算理论和方法的提出[1],标志着计算机视觉成为新的独立学科。马尔提出,人类视觉系统的主要功能是三维重建问题,即复原客观场景的可见视觉信息,且这种复原过程可以通过计算完成,从计算理论到算法实现,对客观世界中可见的视觉信息可以进行特征描述、关键特征提取及识别等计算。