3 知觉和意识
第一节 知觉
感觉和知觉都是当前事物作用于我们的感觉器官所产生的反映。它们的差别在于:感觉是对事物的个别属性(如颜色、气味、温度)的反映;知觉则是对事物各种属性所构成的整体的反映。当你只看到光亮,听到声音,这叫感觉;当你看到一个红色的、里面装满茶水的杯子放在桌子上,这是知觉作用的结果。由此可见,知觉的宗旨是解释:作用于我们感官的事物是什么,在哪里,将要去哪里,对生存有何意义?
人类知觉是一个连续、瞬时,并且通常无意识的过程。然而这种“自然而然”的过程通常会掩盖知觉过程内部的复杂机制。
一、视觉
(一)视觉通路
1.眼球
眼包括眼球、眼睑、泪器、眼窝和眼肌五大部分。众所周知,人具有两个眼球,位于头骨水平中线的两个眼窝内,由其周围细小而有力的眼肌调整转动朝向。人类的眼动由特定脑区负责协调控制,对于扫视视野中不同位置和不同远近的图像十分必要,而不必像其他某些物种(鸽子或猫头鹰)一样扫视物体时需转动整个头部。眼睑和泪器保护眼球、分泌眼泪并维持眼球湿润干净。
人类和很多食肉动物的双眼位于头部前侧,使得视野中有大部分重叠,双眼视觉对于深度知觉很有益处(见“深度知觉”),这样有助于捕食者准确进攻前方猎物;然而很多草食动物的双眼位于头部两侧,使得视野的重叠很小,而总覆盖面积很大,有助于被捕食者监控大范围空间中的可能危险。因此自然界中,双眼位置反映出不同物种进化过程中在深度知觉和视野覆盖面积之间的权衡。
一直以来,关于眼球成像功能的了解主要来自于对透镜成像原理的研究。眼球的构造可与照相机作比照:巩膜好比是照相机的外壳;角膜好比是透镜前方的玻璃盖;前房好比是玻璃盖与透镜之间的空间;虹膜上的瞳孔好比是光圈;晶状体好比是透镜;比照相机更好的是睫状体中的肌肉,可以灵活改变晶状体的焦距;玻璃体好比是腔体;视网膜好比是底片。总而言之,与照相机一样,眼球的光学功能体现在两方面:收集外界物体表面发出或反射出的光;并在眼球后部聚焦形成其清晰的图像(图3-1(a))。
图3-1 眼球结构示意图
(a)眼球的基本构造
(b)功能柱示意图,方位柱镶嵌在眼优势柱内,并垂直于皮层表面依次相间排列
2.视网膜:感光细胞、中间细胞、神经节细胞
正如上文提到的,视网膜位于眼球后部,最内层由数百万感光细胞组成,分为两种类型:主要位于中央凹的视锥细胞;主要位于视网膜外周的视杆细胞。感光细胞内的感光色素暴露在光线中会分解并改变其周围电流,这就将外界光刺激转换为大脑可理解的神经电信号。
视锥细胞大约为6.5百万/单眼,光敏感度低,但具有分辨颜色的能力。因其包含不同视紫蓝质分子而分为三种,对不同波长的光子敏感(见“颜色知觉”)。与视网膜的视轴正对的中央凹处视觉最敏锐,仅含视锥细胞且密度最高。鸽子视网膜中只含有视锥细胞。视杆细胞分布密度约为1.25亿/单眼,其所含视紫红质分子对弱光敏感,一个光量子可引起一个细胞兴奋,5个光量子就可使人感觉到闪光,但不能分辨颜色。猫头鹰只有视杆细胞。人类的中央视野主要负责敏锐和有色的视觉;外周视野主要负责夜间的视觉。
接下来,视网膜感光细胞将视觉信息传给双极细胞进行初步会聚;然后水平细胞和无长突细胞对神经信号进行侧向联系;最后神经节细胞的轴突聚集成视神经(穿出眼球部位的视网膜因无感光细胞而称盲点)将信息首次通过发放动作电位的方式向上传递(最终达到皮层的中枢神经系统)。对灵长目来说,神经节细胞有两个主要分类:M细胞和P细胞。M细胞比P细胞大且轴突粗厚,因而信号传递速度快;M细胞感受器较大,对光强的细微差别敏感,故能有效处理低对比度,但高对比度时发放率易饱和,且空间分辨率低,对颜色也没有感觉。P细胞则相反,它能有效地处理高对比度,且有高空间分辨率,对颜色敏感,但信号传递速度较慢,其数量则比M细胞多得多(P细胞占神经节细胞的80%左右,M细胞只占10%,另有10%左右为其他细胞)(进一步传递情况见“LGN分层投射”)。
事实上,人类虽然有约2亿6千万感光细胞,却只有2百万神经节细胞——即视网膜的传出细胞,表明此时信息已得到部分整合和抽象化处理。
3.视交叉、皮层上(下)通路、LGN分层投射
视觉信息在从眼睛传递到中枢神经系统的过程中,进入大脑前,每条视神经分成两部分:颞侧(外侧)的分支继续沿着同侧传递;鼻侧(内侧)的分支经过视交叉投射到对侧。由此可知,左视野的所有信息被投射到了大脑右半球;右视野的所有信息被投射到了大脑左半球。
进入大脑后,根据每一条视神经中止于皮层下结构的位置可分为不同的通路:视网膜-膝状体通路,即从视网膜到丘脑的外侧膝状体(LGN)的投射,并且几乎全部中止于枕叶的初级视皮层(V1),该通路包含了超过90%的视神经轴突;剩下10%的纤维形成视网膜-丘体通路传到其他皮层下结构,包括丘脑枕核以及中脑的上丘,这10%就已经多于整个听觉通路已发现的神经纤维,因此,上丘和枕核在视觉注意中同样扮演重要角色,甚至有时视网膜-丘体通路被认为是更为初级的视觉系统(见“皮层下视觉”)。
视网膜-膝状体通路的具体投射情况为:灵长目的外侧膝状体共有6层,内侧1、2两层由大细胞构成,分别接受右眼或左眼的视网膜神经节中的M细胞输入;其余的3、4、5、6层则接受来自视网膜神经中的P细胞投射(分别来自左、右两只眼睛,但每一层只能从一只眼睛得到输入)。生理实验表明:LGN中的小细胞层神经元主要携带有关颜色、纹理、形状、视差等信息,大细胞层神经元则主要携带与运动及闪烁目标有关的信息(进一步皮层投射见“运动知觉”)。
4.初级视皮层的功能柱、拓扑地形图
Hubel和Wiesel从1962年开始用单细胞微电极记录结合组织学技术研究视皮层细胞构筑,1981年获得诺贝尔生理学或医学奖。他们在初级视皮层发现了两类主要功能柱:方位柱——具有相同最优朝向的视皮层细胞垂直于皮层表面柱状排列;眼优势柱——大多数双眼细胞接受双眼输入时总有一侧眼占优势,同侧眼优势比率相同的细胞垂直于皮层表面柱状排列(图3-1(b))。而空间频率柱则不如上述两种功能柱那样界限分明。
拓扑性投射是视觉加工的又一个显著而又普遍的特性:在视网膜上相邻的区域对应投射到纹状皮层的相邻区域。这种转换保证了视觉表征与真实世界相比,空间相对位置保持不变,仅在相对大小方面稍有扭曲。其中,中央视野在枕极得到较大面积的表征,说明人类对视网膜中央位置物体的皮层加工程度远远高于外周视野(图3-2(b))。这种拓扑地形图在之后的几个视皮层区得到一定保持(具体见“视皮层分区”)。
图3-2 由视野的圆心角和距圆心距离定出的视皮层功能图
(a)图中为右半球立体的腹后侧观,深灰色为沟,浅灰色为回,框中所强调并被随即放大的部位就是枕叶
(b)由视野中距中心不同距离的环状刺激定出拓扑投射地形图,右上角圆形图例代表视野中不同位置的刺激激活了视皮层上对应颜色所表示的部位
(c)由视野中不同圆心角的楔状刺激定出的各视觉区的边界,图例同上
(d)视野中不同圆心角在视皮层上对应表征部位的不连续处即为视觉区的分界,上下视野在V1处连续,而在V2和V3处则分离成位于V1上下的两个部分。(引自Wandell, et al,2007)
5.腹侧通路的视皮层分区
近年来,随着视觉生理研究的逐步开展,在猴子及人类的皮层上已经发现了越来越多的皮层视觉区。
确定视觉区的标准有很多。其一为神经解剖:例如,V1和V2之间的边界(皮层标本表面有无条纹)相当于布罗德曼17区和18区之间的边界。其二,测量空间中信息是在皮层中的对应表征:每一个视觉区都包含对侧视野外部空间的拓扑表征,功能上相邻视觉区之间的边界就可以标记为拓扑图的不连续处(图3-2(c)和图3-2(d))。皮层内拓扑图的重复并不是每个区域各自接收独立输入所产生的,而是一个区域投射到另一区域时这种拓扑图仍然能被保持,由此可区分出V1, V2, V3。其三为功能专门化:比如V4负责颜色知觉;而V5,又叫MT,负责运动知觉,这两个纹外皮层的功能都同时得到PET脑成像和脑损伤研究的证据支持(具体见“颜色知觉和运动知觉”)。
6.颞叶和顶叶——what & where通路
很多实验发现:以颞叶为代表的腹侧通路负责辨认物体,也就是所谓的what通路;而以顶叶为代表的背侧通路负责定位物体或为抓握物体做准备,也就是所谓的where通路。颞叶损伤病人通常表现出视觉失认症:不能通过视觉辨别某种类别的物体,比如,面孔失认症的病人不能够通过观察面孔来识别他人(甚至是配偶、父母或孩子),但却可以通过听他们讲话而立刻辨认出来,然而这种缺陷又不是视觉体验缺失引起的(他们可以很细致地描述出所看到的面孔,包括脸上的雀斑和鼻梁上的眼镜),可以推测这是 what通路的辨认环节出了问题。同样,顶叶损伤的病人表现出单侧忽视的症状:即不能注意到损伤部位对侧视野中的物体,而这种缺陷又不是物体特异性的,可以推测这是where通路的定位环节出了问题。
然而,目前两个通路的连接处还没有得到最终的确定,一个可能的位置是大脑中的额叶,因为这个脑区能够同时从颞叶和顶叶接收信息,不过其中可能还有很多复杂的环路和中转站,有待进一步研究。
7.皮层下视觉:盲视
如前所述,几乎LGN的所有上行性轴突都终止于初级视皮层。虽然初级视皮层受损会导致个体失明,然而这种失明可能是不完全的,有研究显示,动物或人在初级视皮层缺失的情况下仍然可以保持视觉能力。
牛津大学的Weiskrantz在1986年测试了一个半侧视野失明患者D.B.,考察他是否可以检测到呈现在盲区的客体的位置。结果像预期的那样:D.B.在定位刺激上的眼动表现好于概率水平。这种盲人患者仍残留一些定位刺激能力的现象,其具体机制尚存争论,Fendrich等研究者1992年反驳:另一种可能是皮层损伤并不完全,盲视可能来自于剩下组织的残留功能。
(二)视知觉
1.初级视觉
(1)颜色知觉及其生理机制
在知觉方面,人类通常用三个维度描述色彩:首先“红色”、“蓝色”描述的是颜色的“色调”维度;第二个维度是“亮度”;第三个是“饱和度”,也就是颜色中白色所占的比例,比如红色中白色比例越重就会越接近粉红色,也就越不饱和。在物理方面,上述三个维度分别对应为:色调对应于光波的平均波长;明度对应于光波的波形面积;饱和度对应于光波的变异方差。
关于颜色的生理机制,首先是Helmholtz的三色理论。他发现一般人只要用三种色光依不同比例混合就可以配成任何一种颜色,所以认为人类有三个系统来处理色彩,其后20世纪70年代生理学家果然发现三种人类视锥细胞,分别对不同波长有最高的光吸收率:S视锥细胞对419纳米的光最敏感;M对531纳米光敏感;L对558纳米光敏感。后来,Hering提出了对比加工理论,用来解释色盲(红色盲同时也是绿色盲,蓝色盲同时也是黄色盲)、颜色后效或颜色的同时对比效应(具体见“视错觉神经机制”)等现象:对红色兴奋就对绿色抑制;对黄色兴奋就对蓝色抑制;对白色兴奋(或抑制)就对黑色抑制(或兴奋)。对此,后来研究者在LGN和视网膜上都找到了生理证据支持:在猴子的LGN上面,1968年DeValois和Jacobs找到了对比细胞,对光谱刺激在不同的波长处产生由兴奋到抑制的转变。视网膜的神经节细胞中也可找到对比细胞。
进一步,双重加工理论将以上两种理论结合起来认为:三色理论在感受器层次体现颜色信息的接收;对比加工理论在神经节细胞层次体现对颜色信息的整合。整合的方式为神经网路连接:比如,神经节中的R+G-细胞(红绿对比)接收L细胞的兴奋和M细胞的抑制;B+Y-细胞(黄蓝对比)接收S细胞的兴奋和L+M的抑制;W+B-细胞(亮度对比)接收S细胞的兴奋和L+M的兴奋。后来,研究者又在V1中发现了双重对比细胞,即感受野呈现中心-外周同心圆模式:比如,中心R+G-外周R-G+(中心红-外周绿)的细胞等。在对M.S.脑损伤病人的研究中,发现了皮质色盲:即使视锥细胞或视皮层对比细胞正常也有可能丧失颜色知觉,是因为其颜色中枢V4受损所致。Zeki等人1993年借助正电子断层扫描技术(PET),通过将被试看灰色刺激时的新陈代谢活动从被试看颜色刺激时的新陈代谢活动中减去,同样得到了表征颜色的区域V4。
(2)空间知觉:细胞感受野、方位选择和边缘检测
正如前文所述,视网膜中的神经节细胞是视觉通路中第一种可以发放神经动作电位的细胞,经Kuffler和Barlow在1953年采用单细胞记录的方式首次发现具有中心-外周同心圆模式的感受野,具体分为两种:中央兴奋细胞和中央抑制细胞,分别对中央亮周围暗和中央暗周围亮的刺激有强烈反应。随着技术手段的进步,后来研究者同样得到了双极细胞分级神经电信号的中心-外周同心圆感受野。同样的模式也在LGN细胞中发现,只不过面积更大,周围抑制更强。
Hubel和Wiesel发现初级视皮层V1部分神经元有共同特点:对大面积弥散光刺激没有反应,而对有一定朝向的亮暗对比边缘或光棒、暗棒有强烈反应。但若刺激方位偏离该细胞的“偏爱”方位,细胞反应便停止或骤减。也就是说,V1中部分神经元的感受野为狭长的线条形,并且可以检测到空间中特定位置、特定方向的刺激。除了这种简单细胞,研究者还在V1中发现了复杂细胞:不仅对方位刺激有反应,而且感受野更大,刺激位置也不必局限在某个特定位置,该神经元还可以对刺激运动的特定方向进行类似于对特定方位的反应。复杂细胞不同于外侧膝状体细胞和简单细胞那样只对一侧眼的刺激有反应,而是对两眼的刺激都有反应,但会有单眼优势,表明复杂细胞已开始初步处理双眼信息。复杂细胞占V1皮层的75%左右。最后还有一类超复杂细胞,只对具有端点的线段或拐角才有最佳反应。
从双极细胞、神经节细胞和外侧膝状体同心圆式的感受野到简单、复杂、超复杂细胞的边缘式感受野,每一水平的细胞所“看”到的要比更低水平的细胞多一些,并逐渐建立物体的线条和轮廓,为更高级视皮层对视觉信息的加工和构建(比如物体的形状知觉)提供基础。
(3)深度知觉
深度知觉又称距离知觉或立体知觉,是个体对同一物体的凹凸或对不同物体的远近的感知,并且根据视网膜二维平面的信息输入构建具有深度的三维空间,是知觉构建的一个绝佳实例。虽然根据经验和线索,单眼可在一定程度上知觉深度,但深度知觉主要通过双眼视觉实现。深度知觉的线索有:双眼视差、双眼辐合、晶状体的调节、运动视差等生理线索;也有物体遮挡、线条透视、空气透视、物体纹理梯度、明暗和阴影以及熟悉物体大小等客观线索。大脑可以整合各种线索判断深度和距离。
关于深度知觉的生理机制主要集中在V2视觉区。1962年Hubel和Wiesel首次在V1皮层发现了双眼神经元,即同样的棒状或边缘刺激呈现给双眼引发的反应强于呈现给单眼,但仅当呈现给双眼视网膜上同一位置时,V1的双眼神经元才会有反应,说明V1对于视差不敏感(仅对零度视差敏感)。后来,研究者在猴子V2皮层中发现了对于特定角度视差有反应的神经元,说明双眼分视主要从V2开始得到体现。
(4)运动知觉
运动知觉包括对物体真正运动的知觉和似动。对物体按特定速度或加速度从一处向另一处的连续的位移的知觉,是真正运动的知觉。人们把静止的物体看成运动或把客观上不连续的位移看成是连续运动,称为似动。要得到连续似动的最佳效果依赖于刺激强度、时间间隔和空间距离三个物理参数,它们之间的关系可由Korte定律得到。似动现象是一种视错觉现象。类似的,电影中一系列略有区别的静止画面产生连续运动的“动景运动”;在黑暗中注视一个细小的光点会看到它来回飘动的“自主运动”;在皓月当空的夜晚人们觉得月亮在“静止”的云朵后徐徐移动的“诱发运动”;在注视倾泻而下的瀑布以后将目光转向周围的田野会觉得景物都在向上飞升的“运动后效”(神经机制见“视错觉”)等,都是运动视错觉的一种。
如前所述,运动知觉最早开始于视网膜神经节细胞中的M细胞。M细胞的反应迅速、感受野大、对光强敏感和低空间分辨率等特性十分适合加工运动信息,而P细胞的相反特性则适合加工形状和颜色信息。M细胞和P细胞的分离特性一直维持到LGN不同片层中,并进一步传递到V1皮层中。由前可知,V1能对向各个方向(共360度)运动的物体产生方向特异性反应,最终V1中的运动神经元投射到位于内侧颞叶的运动区(MT),此时可对相互垂直运动的光栅进行矢量整合,从而感知到倾斜45度的共同运动。对脑损伤病人的研究发现,MT(又叫V5)区域损伤的病人不能觉察到连续的运动。Zeki等人1993年借助PET,通过将被试看静止刺激时的新陈代谢活动从看运动刺激的活动中减去,同样得到了表征运动的区域V5。
2.中、高级视觉
(1)知觉组织(格式塔)、Amodal完型及错觉轮廓
在充满多个物体的复杂场景中,由初级视觉分析得到的线条和轮廓必须被恰当归于不同表面和物体,并还原出真实的相互关系,才有助于个体对外界信息的正确处理。
格式塔心理学家研究得到几条经典的知觉组织规律:接近性(在时间或空间上接近的部分容易形成一个整体)、相似性(颜色、大小、形状相似的部分容易被看做一个整体)、完整性(单纯的、规则的、左右对称的部分容易被看做一个整体)、连续性(形成连续平滑线条的部分容易被看做一个整体)、共同命运(向着相同方向运动变化的部分容易被看做一个整体)、定势因素(先前知觉的组织形式会对紧接着的知觉产生相同的影响)等。
前文提到的单眼深度知觉线索之一的“物体遮挡”,也是知觉组织的线索之一,可以有效协助个体分割图形和背景并正确分辨物体。推断被遮挡物体的形状,又称为“amodal完形”,遵循Pragnanz的最简原则。另一种类似视觉遮挡的现象可以使人们产生错觉轮廓,又称为“modal完形”,即人们会将物理方面(明度、颜色、质地、空间位置等)不连续的刺激看成是连续的,甚至清楚地看到并不存在的“虚幻边”,“虚幻面”及“虚幻的遮挡线索”,会觉得错觉图形比周围的区域亮并压在其他图形上面。
自1970年至今,研究者们一直试图得到该现象的生理机制。Von der Heyt和Peterhans在1989年通过单细胞记录手段发现V2皮层中的部分神经元对错觉轮廓有选择性反应。
(2)物体识别:观察者中心\物体中心
高级视觉要解决的问题是如何分辨和归类物体及其各种属性,此阶段的加工对象不再是光点、线段、轮廓或表面,而是物体。物体具有三个方面的不变性:大小不变性、平移不变性和旋转不变性。然而,物体在视觉皮层中的表征方式及其对应的识别方式一直是颇有争议的话题:究竟以观察者为中心,还是以物体为中心呢?
Bulthoff和Edelman在1992年、方方和何生在2005年分别以三维物体和面孔为刺激进行视角后效(具体见“视错觉神经机制”)的行为研究,得到同一物体不同视角的表征,支持了观察者为中心的物体识别理论。其他研究者也通过单细胞记录和fMRI技术在颞叶得到了对物体视角有选择性的神经基础,在生理上支持了该结论。
(3)面孔及其特异性加工区域FFA
面孔是高级视觉中不容忽视的一类特殊物体,其特殊性已得到一些行为证据的支持(倒置效应、部分—整体效应等),而且生理上众多研究也得到面孔加工的一系列特定脑区。2008年的最新研究通过微电极刺激结合脑成像技术在猴子皮层中发现了这些区域之间的特异性联结。目前较为公认的面孔区域要属颞叶梭状回面孔区(face fusiform area, FFA)。该区域的功能特异性得到电生理研究、脑成像研究以及脑损伤病人研究的广泛支持,并已基本被证实不是纯粹的专家效应(人类看面孔最多形成的经验所致)。最新的研究方向已经深入到该区域与其他面孔区之间的联结以及功能上的异同。
图3-3 在观察者中心的物体表征假设下,适应面孔特定视角产生相应后效的原理示意图
(a)假设人类视觉系统中的一群神经元中每一个神经元都依次表征某一个特定的视角
(b)在适应了侧向的某一特定视角后,位于该适应视角周围的神经元群的敏感性降低
(c)导致正面视角的面孔看起来向与之前适应相反的方向转动。(Fang & He,2005)
(三)视错觉
像其他知觉一样,视知觉并非客观世界的直接反应,而是一个重构的过程。虽然通常情况下可以还原真实世界,然而在特殊情况下重构过程不能保证百分之百准确,此时便出现“视错觉”(大小错觉、朝向错觉、形状错觉、位置错觉、颜色错觉、运动错觉等)。研究者会反过来利用这一点得到日常生活中得不到的视觉系统内部重构的规律,使视错觉成为有力的研究工具之一。
1.同时对比效应(颜色、朝向)及侧抑制
同时对比效应指同一刺激因背景不同而产生感觉差异的现象。比较典型的有颜色对比效应:同一种颜色放在较暗的背景上看起来明亮些,放在较亮的背景上看起来灰暗些(图3-4(a))。还有朝向对比效应,也叫倾斜效应:同样竖直的光栅放在周围朝右的光栅中看起来偏左,放在周围朝左的光栅中看起来偏右(图3-4(b))。
图3-4 同时对比效应示意图
(a)左右方框内嵌套的小方框物理颜色相同,但在不同的大方框的颜色对比下,右侧小方框显得更绿(引自Hans Irtel,1998的颜色视觉示例)
(b)中央光栅的真实朝向是竖直的,但在外周向左倾斜的光栅对比下,中央光栅显得稍微向右倾斜。(引自Clifford & Harris,2005的研究图示)
目前主流的解释是侧抑制理论:任何细胞的激活总会在一定程度上抑制邻近细胞的激活。因此,色块周围较亮背景引发的激活会抑制对色块反应的神经元的活动,从而影响对色块亮度的判断;同样,光栅周围倾斜背景引发的朝向特异性激活会抑制光栅处对应朝向神经元的活动,使对光栅反应的朝向神经元反应不均衡,光栅看起来向反方向倾斜。该机制同样可以解释赫曼方格和马赫带等其他视错觉,并广泛存在于神经网络模型构建中,已被证实有助于提高动物对图形的识别能力。
2.适应后效(颜色、运动)及神经元疲劳模型
“入芝兰之室,久而不觉其香;入鲍鱼之肆,久而不闻其臭。”刺激对感受器的持续作用使感受性降低的现象属于感觉适应的一种,是神经元疲劳所致。随之产生的错觉为适应后效。比较典型的视觉后效有前文提到的颜色后效(长时间注视红色块后,在白色屏幕上会错觉地看到蓝绿色块)、运动后效(注视倾泻而下的瀑布后将目光转向周围的田野,会觉得景物都在向上飞升)。
与同时对比效应相类似,该现象是由神经元激活水平不均衡引起的。此时,引发部分神经元反应减弱的原因是神经元的疲劳,比如在观看红色块前,视网膜或LGN中R+/G-和R-/G+的对比神经元对白光的反应一样好;适应过程中R+/G-神经元的敏感性因疲劳而下降,而R-/G+神经元则不变;适应后R+/G-和R-/G+神经元对白光的反应敏感性不再等同(R-/G+敏感性相对更高),这种不平衡导致白色块看起来有些发绿。虽然会导致视错觉,但适应可以使得个体能够忽略环境中的不变因素,及时节省认知资源处理环境中的新异因素,有利于其在快速变换的自然环境中存活发展。
二、听觉
(一)听觉的神经通路
内耳的复杂结构提供了将声音(声压的变化)转换为神经信号的机制:声波使得耳鼓振动,在内耳液中产生了小波,从而刺激了排布于耳蜗基底膜表面上的细小毛细胞(初级听觉感受器)产生动作电位。通过这种方式,一个机械信号,也就是液体的振荡,被转换为一个神经信号,也就是毛细胞的输出。耳蜗的输出被投射到两个位于中脑的结构:耳蜗核和下丘。从那里,信息被输送到位于丘脑的内侧膝状体核(medial geniculate nucleus, MGN),再将信息传递到位于颞叶上部的初级听皮层(A1)。
(二)声音的三种特性
声音的三种知觉特性分别为响度(loudness,声音的大小)、音调(pitch,声音的高低)和音色(musical quality,声音的辨识度),分别对应着声波的三种物理特性。其中,发声物体发出声波的振幅越大,知觉到的声音响度就越大(图3-5(a))。发声物体发出声波的频率越高,知觉到的声音音调就越高(图3-5(b))。不同的发声体由于材料、结构不同,发出声音的音色也就不同。即使在同一音高和同一声音强度的情况下,根据不同的音色人耳也能区分出声音是不同乐器还是人发出的。听知觉中同样的响度和音调上不同的音色就好比视知觉中同样饱和度和亮度配上不同的色调的感觉一样。
图3-5 声音响度知觉
(a)同一频率的纯音刺激,其振幅越大,则响度越大
(b)同一振幅的纯音刺激,其频率越高,则音调越高
(c)基底膜对不同频率的声音具有的最大反应(红色反应曲线的峰顶)出现在基底膜距镫骨不同距离的位置:低频声音的最大激活处位于耳蜗顶端;高频声音的最大激活处位于耳蜗基部
音色的不同取决于不同的泛音:每一种乐器、不同的人发出的声音不是纯音而是复合音,复合音中除了一个基音(特定声波做傅里叶分析后的基频),还有许多不同频率的泛音(特定声波做傅里叶分析后的谐波)伴随(图3-6(a),图3-6(b))。正是这些泛音决定了其不同的音色(图3-6(c))。由于不同的泛音虽然都比基音的频率高,但强度都相当弱,因此音调取决于声波中基音的频率。
图3-6 音色知觉
(a)该复合音由3种不同频率的纯音复合而成,其中谐波频率为基频的整数倍(这里分别为2和3倍)
(b)对该复合音进行傅里叶变换后得到的频谱
(c)不同乐器发出的同一音调的乐音的频谱:不同乐器的特定音色具有相同的基频(2 Hz)和有不同的谐波伴随其中
(三)听觉的频率加工
1.细胞的频率感受野
在听觉系统的早期阶段,即耳蜗处,关于声音来源的信息已经可以得到区分。毛细胞具有编码声音频率的感受野。人类听觉的敏感范围为最低20 Hz到最高20000 Hz,但是对1000~4000 Hz的刺激最敏感。这个范围涵盖了对人类日常交流起关键作用的大部分信息,如说话声或饥饿婴儿的啼哭声。位于耳蜗较粗端即基部的毛细胞被高频声音激活;位于较细端即顶端的毛细胞被低频声音激活(图3-5(c))。这些感受野在很大范围内重叠。而且,自然声音如音乐或说话,是由复杂频率构成的;这样,声音就激活了广大范围的毛细胞。
2.听皮层的张力拓扑图
不仅在听觉加工的早期阶段基底膜上有张力拓扑图(tonotopic map)——依照音频高低次序排列的映射,初级听皮层与声音的频率也有连续的映像关系。正好像视野中相邻位置的刺激激活视皮层的相邻区域一样,频率相似的声音刺激在听皮层上的激活位置也是相邻的。属于听觉皮层的张力拓扑图不只一处,在最新的一个实验中在上颞叶中找到6个具有张力拓扑性定位的区域(Talavage et al.,2004)
3.绝对音感与相对音感
在比初级听觉皮质区更高阶的听觉联合皮质区(auditory association cortex)及额叶中,就找不到这类张力拓扑图。事实上,对于一般只具有相对音感的人(relative picth,只能辨识音与音之间的相对音高关系)而言,绝对音高的信息似乎是内隐的;只有少数人具有绝对音感的人(absolute pitch,指能在没有基准音的提示之下正确听出钢琴上随意出现的音,且辨音的正确率达到70%以上)(Miyazaki,1988)能将这个低阶的信息保留到高级阶段,并外显地展现出对绝对音高的识别能力。一般人偶尔也会展现出类似于绝对音感的能力,比如在没有提示音的情况下唱熟悉的歌曲时,人们通常所选用的调高差不多总是固定的,变动范围通常不超过两个半音(Levitin,1994)。这种在不经意之间所流露出的绝对音高记忆,说明一般人也拥有内隐的绝对音高能力。
在音乐家里面,华人、日本人和韩国人具有绝对音感的比例似乎特别高,因此,绝对音感或许跟基因遗传有关(Zatorre,2003)。虽然亚洲音乐班大多十分重视绝对音感的训练,但欧洲的音乐传统反而更重视相对音感,即强调听音与和弦的能力。
在一般人眼中绝对音感似乎是一种特异功能,因此格外令人羡慕。然而,认知神经科学家Sacks(1995)在对一名自闭症患者的研究中发现,尽管该患者耳朵十分灵光,也有特别优异的音乐记忆力,但对音乐和很多视觉景象都缺乏情感或审美能力。像大部分的自闭症患者一样,该患者讲话的语调平直、缺乏自然的抑扬顿挫,在“随音乐节奏拍手”方面也有显著的障碍。从进化的观点来看,人人皆具备的能力可能比所谓的特异功能更能体现自然演化的规律,因为相对音感的加工其实比绝对音感更高级、更复杂。我们很容易制造出一部能够显示绝对音高的机器(如市售的调音器),但若要教计算机判断旋律中的哪一个音是首调Do,似乎没有想象中那么容易。动物行为学家也发现,许多动物的听音方式较接近绝对音感而非相对音感:将动物习得的旋律移调之后,它们就认不得了。从这个观点来看,人类在听音乐时倾向于听相对音高而非绝对音高,可能反映着一种其他动物所缺乏的较为高级的抽象能力。
(四)听觉的空间定位线索
在草鸮的研究中研究者发现,动物仅仅依靠两条线索来定位声源位置就可以在夜间进行捕食活动:声音到达双耳的时间差别(双耳时差);声音到达双耳的强度差别。这两种线索由独立的神经通路加工,即听神经分别在耳蜗核处的大细胞核团和角细胞核团形成突触连接,各自上行投射到中脑丘系核的前后两个区域。
加州理工学院的小西成一(Konishi)提供了一个比较具体的神经模型来解释猫头鹰大脑如何编码耳间时差和强度差别。耳间时差方面,前丘系神经元起着同步探测器的作用,必须同时接收到两耳输入才会被激活。因此,若声源直接位于动物前方,中央的同步探测器会被激活;若声源位于动物的左侧,偏左的同步探测器就会被激活。耳间强度方面,信息首先在丘系核后部会聚,这些神经基于输入信号的强度进行编码,并由之后的神经元将信号整合确定声源的竖直位置。脑干外侧核将丘系水平得到的水平和竖直位置的信息进一步整合,得到声源的三维空间定位。
在Konishi的模型中,草鸮的声音定位问题在脑干水平就得到了解决。然而听皮层对于将定位信息转化为行动可能更加重要。因为猫头鹰并不想简单地攻击每个声源,它必须知道声音是否由潜在猎物发出。也就是说,Konishi的脑干系统解决了“在哪里”的问题,但还没有涉及“是什么”的问题。猫头鹰需要对声音频率做更加详细的分析,以便决定一个刺激是由一只田鼠还是一匹小鹿的运动产生的。
(五)鸡尾酒会效应及其生理心理学机制
鸡尾酒会效应是典型的听觉注意现象,因常见于鸡尾酒会上而得名:设想在嘈杂的鸡尾酒会上,某人站在一个挤满了人的屋子里,周围可能有十个,二十个人在说话,还有各种声音如音乐声、脚步声、酒杯餐具的碰撞声等,而当这个人的注意集中于欣赏音乐或与别人的谈话时,对周围的嘈杂声音可以充耳不闻。也就是,人们能挑选出自己想听的对话。换句话说,大脑对其他对话都进行了某种程度的判断,然后能够排除其干扰。
半个多世纪前Cherry(1953)提出“鸡尾酒会效应”,这一奇特的知觉问题引发了很多研究者的兴趣。但从信号加工的观点来看,分离目标言语成分与掩蔽言语成分,并对目标言语成分进行组合是一个非常困难的任务。尽管近年来信息科学和计算机技术有了快速的发展,但到目前为止还没有任何计算机言语识别系统能在有干扰言语的环境下像人类那样实现对目标言语的有效识别。
目前的研究仅仅是一个起步,主要集中在对声音掩蔽的研究上。研究者发现,在嘈杂的声学环境中,如果目标声音和干扰声音都是言语,目标声音所受到的干扰影响可以分成能量掩蔽(energetic masking)和信息掩蔽(informational masking)。能量掩蔽发生在听觉系统的外周部分,即当掩蔽声音和目标声音同时出现,尤其两者在频谱上重叠时,听觉系统对目标声音的动态反应就会下降,进而觉察和辨认目标声音所需要的信噪比被提高。能量掩蔽使进入高级中枢的目标信息有实质性的缺失,而这种缺失是任何高级中枢的加工所不能补偿的。信息掩蔽是另外一种更复杂、发生在中枢部位的掩蔽作用,即当掩蔽声音和目标声音在某些信息维度上有一定的相似性时,例如,当目标声音与掩蔽声音都是言语时,一些神经/心理资源就会被用于对掩蔽声音的加工,目标声音和掩蔽声音之间就会在高级加工层次上出现竞争与混淆,从而使目标信号受到了掩蔽作用。李量的实验室研究(2004)发现,优先效应导致成功的主观空间分离可以在一定程度上起到去信息掩蔽的作用。