脑与阅读
上QQ阅读APP看书,第一时间看更新

我们从眼睛开始对书面文字进行加工。只有视网膜中央的一块称为中央凹的区域才具有足够的分辨率,让我们能看清小小的铅字。因此,我们的眼光必须在书页上不断扫视。目光停下来时,我们只能认出一两个单词。而每一个单词又会被视网膜神经元分割成无数碎片,只有当这些碎片重新整合为一体时才能真正辨认出单词。视觉系统会逐步地提取字素、音节、前缀、后缀和词根。最终,两条平行的加工通路开始运转:语音通路将字母转化为语音;而词汇通路则从心理词典中提取词义。

文字的存在是一种沉默的存在,他们沉默着,直到有人将它们读出。
只有当智慧的眼睛与石板上的刻痕相遇的刹那,文字才真正拥有了生命。
一切文字都仰仗读者慷慨的朗读。

阿尔维托·曼古埃尔,《阅读史》


初看起来,阅读简直就是魔术:我们的目光停留在一个词上,而脑毫不费力地提取出词的意义与发音。但请不要被这种表面现象迷惑,这个过程绝不简单。一个词进入视网膜时会被分割成千百万个视觉碎片,而每一个碎片都被不同的光感受器所识别。由于信息以这样的方式输入,我们面临的真正挑战就在于如何将碎片组合起来,使我们可以知道呈现的是哪些字母,还要认出这些字母出现的顺序,从而最终识别出这个单词。

在过去的40年中,认知心理学在分析阅读机制方面进行了研究。研究的目标是解开单词视觉识别的“算法”之谜,即熟练的阅读者采用了怎样的一系列加工过程来识别书面文字。心理学家们像解释计算机科学问题一样来研究阅读。每一个阅读者就像一个带有两个摄像头的机器人,双眼和视网膜就相当于摄像头。而我们所看到的文字就像呈现在摄像头中的图画。起初,这些文字只是一堆光影的组合,不能直接被理解为语言符号。我们必须以一种可以理解的方式对这些视觉信息进行重新编码,才能提取出文字正确的发音、单词和意义。于是,我们必须利用一种解码的算法,或者说一种类似自动文字识别软件的处理机制,这种机制将一页纸上的一堆像素作为输入信息,而其输出信息则是识别出来的单词。为了完成这一“壮举”,我们的脑进行着一套看不到的精密解码操作,而对这些操作的原理我们只能算是初窥其秘。

眼睛不是扫描仪

阅读的过程始于书页反射的光子撞击视网膜的那一刻,而视网膜却不是一个匀质的感受器。只有名为中央凹的中心地带,才是视网膜中唯一拥有密集的、对光线高度敏感的、高分辨率的视觉细胞的区域,视网膜的其他区域只具有较低的分辨率。而这视野中占到大约15度视角的中央凹也是视网膜中唯一真正可以用来阅读的区域。如果因为某种原因,中央凹得不到视觉输入,例如因为视网膜损伤,或由于中风破坏了视觉皮质的中心区,或是实验人员选择性地阻挡了中央凹的视觉输入,不管是哪种原因,阅读都不可能完成了1

正因为需要把文字放入中央凹来阅读,眼球在阅读的时候需要不断地移动。我们必须通过注视点的移动,用视觉中最敏感的区域来“扫描”文本,因为只有这一区域的分辨率高到足够识别文字。然而,人的目光并不是匀速不停地在书页上移动的2。恰恰相反,目光总是一小步一小步地移动,我们称之为眼跳(saccade)。其实此刻在阅读本书的时候,你的眼睛也正在做着每秒钟4~5次的跳动,不断地将新的信息带入你的中央凹。

即使是在中央凹中,视觉信息在不同位置的精细程度也会有所不同。在视网膜及之后位于丘脑和大脑皮质的视觉处理区域中,视觉场景中每一部分所分配到的细胞数也随着其与注视中心的距离变大而越来越少,这使得视觉精确度逐步下降。视觉精确度在视野中心最佳,向视野的外围平稳地下降。我们有一种错觉,认为自己是以一种固定的精确度看到整幅场景的,就好像是数码相机以均匀的像素阵列拍下照片一样。然而与相机不同,人的眼睛只对正落于注视中心的那一点有最精细的感知,而这一点的周围则越来越模糊(见图1-1)3

图1-1 视网膜严密地过滤着我们读到的信息

图中的视觉刺激来自塞缪尔·约翰逊(Samuel Johnson)的《冒险家》(The Adventurer, 1754)中的一页,被用一种算法进行了过滤。这种算法还原了人类视敏度从视网膜中心向外下降的情形。无论字号多大,我们只能识别出注视点附近的字母。所以我们阅读时眼光必须不停地在书页上跳动游走。当目光停下来时,我们只能识别出一两个单词。

也许你会认为,在这样的条件下,决定着阅读难易程度的因素是印刷字体的大小,小字会比大字更难辨识。然而奇怪的是,事实并非如此。因为字越大,字所占据的视网膜空间就越大。而当我们用大字号印出一个单词时,单词就会被扩展到视网膜的边缘,而在这个边缘区域,不论字有多大,辨认起来都是力不从心的。让辨认变得容易与不容易的两个因素几乎完全相互抵消,所以一个巨大的单词和一个微小的单词从视网膜感觉精度的角度来说,本质上并没有什么区别。当然了,前提条件是这个单词不能太小,至少大于人眼中央凹所能精细分辨的极限。而对视力减退的人,例如老年人,把字印大一点还是很有道理的。

正因为眼睛是如此工作的,我们的知觉能力只与单词中有多少个字母有关,而与这个单词占据了视网膜上多大的空间无关4。实际上,以纯粹的距离来算,我们的眼跳幅度总是不断变化的,而如果以字母数量来计量,每次眼跳又都是等距的。当脑做好移动目光的准备时,它会依照字母大小来调整距离,以使注视中心每次都前进大约7~9个字母的距离。这个距离出人意料地小,我们注视一次所能处理的信息量大约也就如此。

为了证明我们一次只能看清书本上很小的一块区域,乔治·麦康基(George W. McConkie)和基思·雷纳(Keith Rayner)研究出一套实验方法,我喜欢称之为“笛卡尔魔鬼”(Cartesian devil)。在他的《第一哲学沉思集》(Metaphysical Meditations)中,笛卡尔想象出一个玩弄我们感官的邪恶魔鬼:


因此我要假定控制我的感官的,并非至善的神,那真理之源泉,而是一个邪恶的魔鬼,他强大、阴险,用尽一切手段来欺骗我;我要假定天、地、色、形、音及一切外物无非梦幻光影,皆为此恶魔欺骗我之陷阱。我将认为自己无手、无眼、无肉、无血,无一切观感,然而错信我拥有此等一切。


正如电影《黑客帝国》中的超级电脑一样,笛卡尔所描绘的邪恶魔鬼用精细的人造信号冲击我们的脑,为我们制造出一个伪现实、一个真实的幻境、一个虚拟布景,而其后的真实景象则永远被隐藏。麦康基和雷纳的方法则相对温和得多,他们设计了一种电脑屏幕上的“移动窗口”,可以让人产生看到完整文本的错觉5。他们的方法是给一名被试(参加实验的人)戴上特制的眼动捕捉装置,并实时地改变屏幕上的显示内容。这个装置可以经过编程设置,让电脑屏幕上只显示注视中心左右的几个字母,而整页文字的其他字母都用一串串的“x”来代替:

眼睛一动,电脑就会偷偷地改变屏幕显示。其目标是只显示被试此刻注视点周围的字母,而把其他地方的字母都变成一串串x:

利用这一装置,麦康基和雷纳向世人展示了一个充满争议的惊人发现。结果显示,被试根本没有发现这种实验操纵。只要注视点中心的两边呈现的字母足够多,阅读者就不会看穿这个把戏,他们以为自己看到的是一页正常完整的文本。

这种让人称奇的“视而不见”现象之所以出现,是因为文本变化时眼睛恰好处在最高速的运动状态。这种换词的手法之所以难以觉察,就是因为换词的瞬间视网膜上的图像会因眼球的运动而模糊。而目光一停,一切看起来又都正常了:在中央凹,我们看到了想看的字母,至于视野的其他区域,也就是外围区的字母,反正本来也是读不了的。如此一来,麦康基和雷纳向我们证明了,人类只能对视觉输入信息中的一个小子集进行有意识的处理。如果电脑程序在我们注视点的左侧留下4个字母,右侧留下15个字母,阅读速度将不会受到影响6。简单来说,我们每次只能从书页上提取少得可怜的信息。笛卡尔的邪恶魔鬼只需要让我们看到20个字母,就能让我们误以为自己是在读美国宪法了!

事实上20个字母都算是多说了。我们每一次眼跳只能辨别出10~12个字母:注视点左侧的3~4个,右侧的7~8个。在这个范围以外,我们基本上识别不出单词,只能感知到有无空格。空格可以为我们提供关于单词长度的线索,从而帮助我们做好眼跳的准备,并确保我们的目光落到下一个单词的中心。至于我们从下一个单词中到底能提取出多少信息,研究者中还存在着争议,也许我们只看到了单词的前几个字母。然而,学者们在某一点上达成了共识,那就是眼动的方向使视觉范围产生了不对称性。在西方国家,视觉范围更加偏向右侧,而对于阿拉伯语或希伯来语的阅读者来说,由于阅读时是从右向左扫视,他们的视觉范围则是向左边偏的7。在其他文字系统中,例如字符密度较大的中文,眼跳的距离更短,视觉范围也会相应地缩小。每一个阅读者都会根据不同的语言以及文本,调整他对文本区域进行视觉探索时采用的策略。

利用同样的方法,我们还可以估计出识别每个词并对其进行编码所需要的时间。我们可以利用电脑程序,让屏幕上的所有字母在一定时间后都变成“x”,包括中央凹的字母。通过这样的实验,我们发现,呈现时间为50毫秒时,阅读速度还可以基本保持正常。但这并不意味着阅读用到的所有加工过程都可以在这50毫秒内完成。在本书后面我们就会看到,在单词呈现之后,有一系列的加工过程总共需要持续大约半秒。不过最初获取视觉信息可以在很短的时间内完成。

总而言之,眼睛给阅读行为施加了很多限制。视觉感受器的结构决定了阅读时我们必须每0.2秒或每0.3秒就让目光跳跃,这样才能够对整个书页进行扫描。而阅读也只不过是把一系列对单个词的“抓拍”,通过内部加工过程重新组合起来。有时一些小的语法词,像“the”“it”“is”可以跳过,但几乎所有名词和动词这样的内容词,我们都必须至少注视一次。

这些限制是视觉系统中固有的一部分,无法通过训练加以改善。我们当然可以通过训练来优化眼动的模式,然而大多数每分钟能读四五百词的优秀阅读者,其眼动方式已经没有什么提升空间了。考虑到视网膜的构造,我们很可能没法再去提升速度了。有一个简单的演示可以证明眼动是限制阅读速度的罪魁祸首8。如果我们一个词一个词地呈现一句话,让每一个词都精确地落在注视点上,就意味着不需要眼动,此时一个熟练的阅读者可以达到惊人的阅读速度——平均每分钟1 100个单词,而最优秀的阅读者甚至可以达到每分钟1 600个单词,差不多每一个单词只需40毫秒,这是正常阅读速度的3~4倍!这种方法叫作快速序列视觉呈现法(Rapid Sequential Visual Presentation,简称RSVP)。使用这种方法时,识别与理解单词的速度仍然让人满意,也就是说,单词识别与理解这些阅读的核心加工所需的时间并没有明显限制阅读速度。或许在屏幕逐渐取代纸张的将来,这种视觉呈现方式将成为阅读的新趋势。

无论如何,只要文字还是一行行地写在纸上,通过注视来获取信息的方式就一定会减慢阅读的速度,形成一道不可跨越的壁垒。正因为如此,在看到那些声称可以让你的阅读速度达到每分钟1 000词的快速阅读法的广告时,就一定要持怀疑的态度了9。当然,我们肯定可以通过某种方式,在一定程度上扩展视觉范围广度,以减少阅读每一行时所需的眼跳次数,或者学会在阅读时不回跳,就是说不回头去看已经读过的词。然而,眼睛的生理极限不可能突破,除非你愿意跳过一些单词,并承担因此而误解文意的风险。伍迪·艾伦(Woody Allen)对这种情况的描述相当精彩:“我参加了一个快速阅读训练班,学会了如何在20分钟内读完《战争与和平》。不过读完我就只记得这本书跟俄罗斯有关。”

寻找恒常性

你认字吗,鲁宾

认识,我认识印刷的字,但是我从来认不出手写字。

莫里哀,《乔治·唐丹》


阅读给我们出了一道知觉难题。无论单词以何种面貌出现,我们都必须能够识别它们,不论它们是印刷的还是手写的,大写的还是小写的,用的是大号字还是小号字。这就是心理学家们所说的恒常性难题:我们必须从字母成千上万种可能的变形中找出单词唯一不变的属性——字母顺序。

之所以说知觉恒常性是一个难题,是因为单词并不总是呈现在同一位置,用同一种字体或同样的大小书写。如果这些属性都固定,我们只需简单地看一下视网膜上哪些细胞处于激活状态,哪些处于非激活状态,就可以对所见单词进行解码了,就像一幅黑白的图片可以用一序列像素来定义一样。然而现实是,依写法的不同,同一个词可能有成百上千种不同的视网膜图像(见图1-2)。因此在阅读的最初几个加工步骤中,就要对这些繁杂多变的表面形态进行修正。

图1-2 视觉恒常性是人类阅读系统最重要的特性之一

我们的单词识别机制满足了两个看起来相互矛盾的需求:哪怕字符的形状有再大的区别,这种无关的差异都会被忽略;而重要的差异哪怕再小,也会被放大。虽然我们还不知道其中的机制,但是,视觉系统会自动地对字号与字体上的巨大差异进行修正。然而视觉系统有时也会对微小的形状差异倍加注意。将“s”变成“e”,“sight”就变成了“eight”,一个符号的差异让单词的加工链发生巨大的变化,输出完全不同的发音与意义。

有几种线索告诉我们,脑有一个应对知觉恒常性难题的高效的解决办法。当我们把报纸拿在眼前合适距离处时,既可以读标题也可以读分类广告。单词的大小可以变化50倍之多,而阅读速度却不受影响。就像我们可以识别出眼前60厘米处和将近30米远处的同一张脸或同一个物体一样,视觉系统对大小的变化有很强的耐受性。

另一种形式的恒常性让我们可以不受单词在纸页上的位置的影响。当我们的目光扫过纸张时,视网膜中心通常落于单词中心略偏左一点。然而,这一动作还远不够精准,有时目光也会移动到一个单词的第一个或最后一个字母,但这并不影响我们对单词的识别。如果字母的大小相应地增大,能补偿视网膜分辨率的下降,我们甚至可以用外周视野来阅读。大小恒常性和位置恒常性的识别就是这样相互配合的。

单词识别与字符形态基本无关。在文字处理软件无所不在的今天,普通大众也能学习一些原先只有少数专业排字工作者才掌握的技术。现在人人都知道字符有一套套不同的“字体”(font,该词源于铅印时代,那时印刷之前人们必须在铸造车间中用铅来铸字,font便来自于found,意为铸造)。每一种字体都拥有两类字符,即大写字符和小写字符(英文称大小写为“case”,大写为“uppercase”,小写为“lowercase”。原本case是指一种扁平的盒子,里面分成很多区域来码放铅字;而上面的盒子——“upper case”专门用来放大写字母,其他字符放在下面的盒子——“lower case”中)。最后,人们还可以选择字体的“重量”,即粗体还是正常字体;以及字体的倾斜,即斜体(斜体称为italics,因其最早是在意大利发明的);还有是否有下划线,或者将这些选项组合起来。然而,这些精准计量的字体变化跟手写体的无穷变化比起来,只能算是小巫见大巫了。手写体显然让文字的变化性与辨识难度又都上了一个台阶。

在面对这些变化时,视觉系统到底是如何学会对字母的不同形态进行分类的?在某种程度上,这仍然是一个谜。这个难题中的一部分,可以用比较简单的方法来解决。例如元音字母“o”就可以很容易识别,多亏了它独特的闭合形状,字号、大小写和字体都难不倒我们。因此,建立一个针对“o”的视觉探测机制并不太困难。然而,其他字母就很困难了。比方说字母r,虽然看起来r、R、r和r显然代表了同一个字母,但仔细审视这个问题,我们就会发现这种思维联系是多么随意,例如,如果我们硬要用e这个形状作R的小写形式也不是不可以的。所以这种奇异的文化现象只能用历史的偶然性来解释了。

于是,我们学习阅读的时候,不但要将字母对应到语言的发音上,还要了解同一个字母可能会写成完全不相关的不同形状。我们将会看到,我们之所以有能力完成这样的事情,很可能是因为我们拥有一些探测抽象字母的神经元,也就是说有一些神经元可以识别不同形态的字母。实验证明,只要经过少量的训练,我们就可以用正常的速度来阅读大小写字母相间的一句话:“To DeCoDe, At An EsSeNtIaLly NoRmAl SpEeD, EnTiRe SeNtEnCes WhOsE LeTtErS HaVe BeEn PrInTeD AlTeRnAtElY iN uPpErCaSe aNd In LoWeRcAsE.”10在麦康基和雷纳的“邪恶魔鬼”般的电脑上,这种字母大小写的变化也可以在每一次眼跳时进行切换,而阅读者竟然完全不知情!11在我们的日常阅读经验中,从来不会看到一个单词用大小写字母相间的方法来写,然而我们对字母进行规则化加工的过程十分高效,可以轻松应对这种写法转换。

顺带说一下,这些实验证明,单词的整体形状在阅读中并不起作用。我们之所以可以立刻识别出“words”、“WORDS”和“WoRdS”,是因为视觉系统并不关注单词的外轮廓,也不关注字母的高矮变化,而只关注单词中含有哪些字母。很明显,识别单词的能力并不依赖于对单词整体形状的分析。

将差异放大

虽然视觉系统可以有效地将与阅读无关的视觉差异过滤掉,例如“R”与“r”之间的差异,但是如果认为系统只是一味地抛弃信息、简化形状的话,也是不对的。相反,很多时候,对于那些可以区分两个相近单词的微小差别,视觉系统必须加以保留甚至放大。来看看这两个词:“eight”和“sight”。我们可以马上从大脑中提取出它们不同的意义和发音,而只有非常仔细地观察时,我们才可以发现两词之间的差异只有几个像素而已。我们的视觉系统对“eight”和“sight”之间的细微差异非常敏感,并会将这种差异放大,使得视觉输入传送到语义空间中完全不同的地方。同时,视觉系统又对其他一些更明显的差异几乎视而不见,如“eight”和“EIGHT”之间的差异。

和视觉系统对大小写不敏感一样,这种对于重要的细节格外注意的能力也是多年训练形成的。一名英语阅读者,可以马上看出字母“e”和“o”之间的区别,同时认为“a”和“a”之间没有区别;但他可能不会注意到希伯来字母“ח”和“ה”之间的巨大差异,而这个差异对希伯来语的阅读者来说却是显而易见的。

每一个单词就是一棵树

视觉使用一种组织严密的系统来应对单词识别中的恒常性问题。我们将在第2章中详细了解到,进入视觉脑区的神经活动将一步一步被整理成有意义的分类。非常相似的形状,例如“eight”和“sight”,将通过一系列越来越精细的过滤,在这一过程中被逐渐区分开,并对应到心理词典中的不同词条上去。所谓的心理词典是一个虚拟的词典,它记录着我们看到过的每一个词。相反,像“eight”和“EIGHT”这样形状特征明显不同的图形,开始在初级视觉皮质由不同的神经元加工,但在不断重新编码的过程中,它们逐渐变得几乎不可分辨。探测特征的神经元从“i”与“I”之间找到相同点,也有更加抽象的探测字母的神经元将“e”与“E”归类为同一个字母的两种不同形式。不论最初的差异有多大,阅读者的视觉系统最终将对字母串“eight”和“EIGHT”的本质进行编码,而忽略它们的具体形状。视觉系统让这两个字母串指向了思维中相同的“地址”,所产生的抽象代码让脑的其他部分可以进一步提取这个单词的发音和意义。

这种“地址”是什么样的?有一些模型认为,脑使用了一种无结构的列表,表中只是提供了E-I-G-H-T这一字母序列。也有的模型认为,脑使用了一种非常抽象、非常传统的编码方式,与随机密码表相似,例如1296是“eight”而3452是“sight”。然而,当代的研究支持的是另外一种假设:很可能每一个书面单词都由一个树形结构进行编码,在这个结构中字母被组合成稍大一级的单元,而这些单元则再组合成音节与单词,就像人体可以划分成下肢、上肢、躯干和头,而这每一个部分又可以进一步划分为更简单的单元。

例如,我们可以看一下怎样将“unbuttoning”这个单词分解成相应的小单元。我们必须先将前缀“un”和熟悉的后缀“ing”(也可以把它看作由语法产生的结尾)拿掉。它们都是用来修饰这个词的中心元素,也就是词根“button”的,即词中词。而这三个组成部分统称为“词素”(morpheme),即具有语义的最小单位。在这个水平上,词素的组合方式就是一个单词的特征。将一个词分解为词素甚至可以帮我们理解从来没有见过的词,例如“reunbutton”或“deglochization”,我们能看出这个词指的是与“gloch”相反的动作,虽然我们不知道“gloch”是什么意思。在某些语言中,例如土耳其语和芬兰语,词素可以组成超级长的单词,这些单词可以承载的信息与整个英文句子一样多。在这样的语言中,当然在英语里也一样,将词分解为词素对于从视觉到语义的转换过程尤为重要。

很多实验数据表明,视觉系统可以非常迅速地,甚至根本是无意识地从单词中识别出词素。例如,如果我们让“departure”在电脑屏幕上一闪而过,再给你呈现“depart”时,你就能更快地读出来。这是因为呈现“departure”对于词素“depart”进行了预激活,从而使你提取起来更容易了。心理学家称之为“启动”(priming)效应,即阅读一个词的时候会启动对其他相关词的阅读,就像是预先为水泵灌好水,让它更快地开始输送一样。

重要的是,启动效应并不只是依赖视觉相似性:看起来差异很大但却拥有相同词素的词,像“can”和“could”也可以彼此启动;而那些看起来相像,但却没有共同词素的单词,像“aspire”和“aspirin”则不会彼此启动。启动也并不需要两词在语义水平上有相似性,例如“hard”和“hardly”,或“depart”和“department”也可以彼此启动,虽然它们的意义基本上是无关的12。将词分解为词素这一过程,对阅读系统似乎非常重要,因为我们有时甚至会去猜测单词的分解方法。阅读系统将“department”分解为“depart”和“ment”,以方便后续加工过程解码出这一单词的意义13。不过这种机制并不是完美的,一个无精打采(listless)的人并不是在等一份杂货清单(grocery list)的人,而你与室友同住一间公寓(apartment)也并不意味着你们将很快分离(live apart)。不过不要介意,这种解析错误会在单词分解过程的其他阶段中得到修正。

如果进一步分解“unbuttoning”这个单词,就会发现词素“button”本身并不是一个不可分割的整体。它由两个音节[bʌ]和[ton]组成,而这两个音节又可以分解为单个的辅音和元音:[b][ʌ][t][o][n]。这里,我们又看到另一个对阅读系统至关重要的单元:字素(grapheme),即对应目标语言中一个音素的一个或一系列字母。注意,在我们的例子中,双字母“tt”对应一个单独的音[t]14。实际上,由字素到音素的对应并不总是直接的。在很多语言中,字素可以由一组字母构成。英语中就包含了特别多的复杂字素,例如“ough”、“oi”和“au”。

视觉系统学会了如何将这些字母组合看作真正的单位,甚至已经不再深究它们究竟是由什么字母组成的了。我们用一个小实验来证明这个观点。请观察下面一组单词,并标出包含“a”的单词:


garage

metal

people

coat

please

meat


你有没有感觉到,在最后的三个单词“coat”“please”“meat”上,你的速度稍稍减慢了一点?这三个词都包含字母“a”,但是“a”嵌在一个复杂字素中,而这个字素的发音又不像“a”的发音。如果我们仅仅利用探测字母的神经元来探测“a”的存在,将单词划分成字素并没有意义。然而,实际的反应所用的时间清楚地表明,脑的加工并不止步于单字母水平。视觉系统会自动地将字母再分组为更高级的字素,这就让我们更加难以判断类似“ea”的分组中是否真的含有“a”的问题了15

接着,字素将被自动地组合为音节(syllable)。这里也有一个小例子来证明这一过程。你将看到一些由5个字母组成的单词。有一些用了黑体,有一些用了正常字体。请将注意力集中于中间的字母,试着判断出它是黑体还是正常字体:


第一组 HORNY RIDER GRAVY FILET

第二组 VODKA METRO HANDY SUPER


你有没有觉得第一组比第二组稍稍难一点?在第一组中,黑体字符并不代表音节的边界,例如在“RIDER”中,“D”是黑体而其所在音节的其他字母都是正常字体。我们的思维倾向于将组成一个音节里的字母组合到一起,这与黑体对字母的分组形成了冲突,导致我们的反应明显变慢了16。这个现象说明视觉系统会自动将单词划分为基本组成单元,即使我们并不希望它这样做。

单词组成成分的性质现在还是一个很热的研究课题。看起来,单词的分解存在不同的层次:最底层是单个字母,然后是一对字母,或者叫作双字母(bigram,这是一个重要的单元,我们后面还会讲到),双字母后是字素,再接着是音节、词素,最后才是单词。最终,视觉加工将一个单词解析成一个层级结构,即一个树形结构,其树枝为大小逐级递增的单元,而叶子则是字母(见图1-3)。

图1-3 单词的树型结构

单词串就这样被简化到极致,去掉了不相关的字体、大小写、字号信息,分解为基本要素,从视觉系统传至脑的其他区域,加工出单词的语音和意义。

字符转化为声音

书写是一种为眼睛绘制单词和言语的天才艺术。

乔治·德布雷伯夫,法国诗人


当奥古斯丁(Augustine)拜访米兰主教安布罗斯(Ambrose)时,他发现了一个奇怪的现象,写入了回忆录中:


当安布罗斯阅读时,他的眼睛扫过书页,他的心找出文字的意义,但他的声音却未发出,他的舌头也静止不动。谁都可以随意地接近他,而客人们来时一般也不用通报。所以我们来拜访他时,经常可以看到他这样静默地阅读着,因为他从不读出声来17


在7世纪中叶,神学家塞维利亚的圣依西多禄(Isidore of Seville)也感叹:“字母有一种魔力,能够无声地将远方的人的话传递给我们。”在那个时代,通常的做法是将拉丁文大声地读出来。阅读时发出声音是一种社会习惯,但同时也是一种真正的需要,因为当时人们面对的情况是单词堆在一起,没有空格,而拉丁语又是一种不熟悉的语言,大部分阅读者都必须像小孩子读书一样边看边嘟囔。因此安布罗斯安静的阅读方式才让人这么惊奇。但对我们来说无声阅读已经是一种人人熟悉的经验,我们可以不发出声音就进行阅读。

我们的思维是否可以直接从书面文字直达语义,而不需要经过发音呢?还是我们无意识地将字母转换成语音,然后才由语音转换到语义?这个问题一直有很多争论。在30多年的时间中,这种阅读内在通路的组织方式问题所引发的讨论使心理学界划分成了不同阵营。一些研究者认为从文字到语音的转换是必经的一步。他们认为,书面语言只不过是口语的一种副产物,因此我们必须通过一种语音通路(phonological route)将单词读出来,然后才有可能明白文字的意义。而其他人则认为,语音编码只是阅读初学者具有的特点。对于更成熟的阅读者来说,阅读的效率体现在一条直接的词汇通路(lexical route)上,这一通路直接将字符串转换成其意义。

现在,研究者们基本上达成了共识:对成人来说,两条通路都存在,而且它们是同时运作的。我们都可以直接提取单词的意义,由此省掉先发音再理解的麻烦。然而,即使是熟练的阅读者也会利用单词的发音,即使他们并没有意识到这一点。并不是说我们必须真的将单词读出来,我们不必动嘴唇,甚至不必产生准备动嘴唇的意图。然而在更深层的加工中,我们会自动提取出单词发音的信息。词汇通路与语音通路并行运作,并相互支持。

有充足的证据证明,我们在阅读时会自动获取语音。例如,可以设想一下,我们要从一列字母串中找出哪些是真正的英文单词,哪些不是。注意,你只需要确定这些字母是否可以组成一个英文单词。列表如下:


rabbit

bountery

culdolt

money

dimon

karpit

nee


你可能会在看到一些读起来像真单词的词时有所犹豫,例如看到读音像“demon”、“carpet”和“knee”的词时。这种干扰效应可以通过反应时间清晰地测量出来。这一效应表明,我们将每个字母串都转化成了与真单词比较相像的语音,虽然这一加工过程与我们所要求的实验任务相悖18

读一个新单词时,在脑中将单词转化为语音尤为重要,例如“Kalashinikov”(卡拉什尼科夫冲锋枪)这个词。一开始,我们并不能直接提取它的意义,因为没见过如此拼写的单词。我们所能做的,就是将其转化为读音,然后才能发现这个读音模式是可以识别的,并且通过这一间接过程来理解这个新单词。因此,当遇到一个新单词时,发音往往是唯一的对策。同样,在阅读那些拼错了的单词时,发音也一样重要。来看一下爱伦·坡的冷僻小说《离奇天使》(The Angel of the Odd)。在这篇小说中,一个神秘的人陌生人进入了故事中“我”的公寓,那是“一个没什么特点的人,不过也不能说完全无法形容”,他有着一口伦敦迷雾一样重的德国口音:

“请问,你是谁?”我正色道,虽然还带着些许疑惑,“你怎么进来的?你想说什么?”

“饿砸养晶爱的,”那人说,“扑管泥德师。资于饿相说西嘛,饿想说西嘛酒说西嘛。资于饿师碎,嘎嘎,饿酒师来样泥自技看一看饿师碎的……看饿!饿师离七天使!”陌生人说的话为:“我怎样进来的,不关你的事。至于我想说什么,我想说什么就说什么。至于我是谁,哈哈,我就是来让你自己看一看我是谁的……看我!我是离奇天使!”——编者注

“Az vor ow I com'd ere,” replied the figure, “dat iz none of your pizzness; and as vor vat I be talking apout, I be talk apout vat I tink proper; and as vor who I be, vy dat is de very ting I com'd here for to let you zee for yourzelf....Look at me! Zee! I am te Angel ov te Odd.”

“确实够离奇的。”我鼓起勇气说道,“不过我一直觉得天使是应该有翅膀的。”

“吃旁!”他非常愤怒地大叫,“饿妖吃旁干西嘛?田哪!泥一为饿师一只寄嘛?”“翅膀!我要翅膀干什么?天哪!你以为我是一只鸡吗?”——编者注

“Te wing!”he cried, highly incensed, “vat I pe do mit te wing? Mein Gott! Do you take me vor a shicken?”

在读这段文字时,我们回归到了一种早已被遗忘的阅读模式,即孩提时代的阅读模式:我们使用了语音通路,通过缓慢地将完全生疏的字符串转化为声音,从而神奇地读懂了这些文字,好像有人在对我们轻声朗读一样。

那么那些日常的单词呢?那些我们已经看过成千上万次的单词呢?我们并不觉得需要通过脑海中的发音来缓慢地对其进行解码。然而,一些聪明的心理学测验让我们知道,我们仍然会在无意识水平上激活这些单词的发音。请看下面的例子,你需要指出下面哪些单词表示人体的组成部分。这些都是非常熟悉的单词,因此你可以专注于它们的含义而忽略它们的发音。来试一下:


knee

leg

table

head

plane

bucket

hare


也许你有一种对“hare”答“是”的冲动,因为它的发音与“hair”(头发)相似,那也是人体组成部分。众多实验表明,我们在遇到与目标分类中的某个词发音相近的词时,反应会变慢,错误也会变多19。如果我们没有先提取出了这些单词的发音,又怎么会注意到发音的相似性呢?要解释这种错误,我们只能认为存在一个内在的语音转换过程。脑忍不住要把“h-a-r-e”这几个字母转化为内在语音,然后才将这个语音与语义联系起来,而此时我们遇到一个偶发情况,发现我们读的这个字母串与另一个常见单词发音相似,这时这一联系过程就会出错。

当然,这种不完美的脑设计也让我们可以享受生活中最有趣的东西之一:双关语,或者如幽默作家理查德·莱德勒(Richard Lederer)所说的“文字的乐趣”。如果没有这种天生的将字母转换为语音的能力,我们就无法对梅·韦斯特(Mae West)的自述露出会心的一笑(“She's the kind of girl who climbed the ladder of success wrong by wrong”意思是“她是那种一‘错’一‘错’地爬上成功阶梯的女孩”。“wrong”(错误的)与“rung”(梯子的横档)同音。——译者注),也不会理解柯南·道尔的姻兄的揶揄:“There's no police like Holmes.”意思是“没有哪个警察比福尔摩斯更好了”,这里是恶搞习语“There's no place like home.”,即“没有什么地方比家更好了”。——译者注。没有奥古斯丁所说的“静默的声音”,有些双关语就难博得我们一笑了:

一个仰慕者跟林肯总统说,“请允许我引见我的一家。我妻子,淫(殷)夫人。我女儿,淫(殷)小姐。我儿子,淫(殷)少爷。”

“天啊!”总统说。20

An admirer says to President Lincoln, “Permit me to introduce my family. My wife, Mrs Bates. My daughter, Miss Bates. My son, Master Bates.”

“Oh dear!”replied the president.这里,Master Bates与masturbates同音,意思是“手淫”。——译者注

有更多来自阈下启动(subliminal priming)的证据支持脑自动提取单词发音模式的理论。假设我先让“LATE”这个单词在你眼前闪过,然后马上给你呈现“mate”,并让你尽快地读出来。我们故意让单词的大小写不同,以避免出现低水平的视觉相似性。然而,当第一个单词的发音和拼写与第二个词相似时,就像这个例子中那样,我们发现阅读第二个词的速度大幅加快,比两个单词没有关系时(如先呈现BOWL后呈现mate)要快得多。这种加速效果中,一部分显然只与单词拼写的相似性相关。先闪过“MATH”后,识别“mate”变快了,虽然这两个字母串的读音非常不同。然而重要的是,当两个单词的发音存在共同点时,这种加速效应更加明显,如先“LATE”后“mate”,而这种以语音为基础的启动效应即使在拼写完全不同时也会起作用,如先“EIGHT”后“mate”。这样看来,发音似乎被我们自动地提取了。不过正如你所料,拼写与语音并不是在同一时刻进行编码的。脑只需要观看一个单词大约20~30毫秒,就可以激活单词的拼写,而要转换成语音,则还需要再多40毫秒,这一点从语言启动出现的时间上就可以证实21

由此看出,这些简单的实验为我们勾勒出了阅读者脑中一系列连续的加工阶段,从视网膜上的印记到转化为字母和语音。任何一个熟练的阅读者都可以无意识地、毫不费力地将字符串转化为声音。

声音的局限性

在阅读时,内隐地提取出书面文字的发音是一个自动的过程,然而这种转换也许并非不可或缺。语言到声音的转换通常又慢又没有效率。因此我们的脑经常会试着通过另一条更加直接的平行通路,来提取单词的意义,将字符串与我们心理词典中的条目直接联系起来。

为了让我们对直接的词汇通路有一个更直观的感受,我们可以设想一个只能通过在脑海中读出文字发音来阅读的人所面临的窘境。对他来说,要区分同音的单词是根本不可能的,例如“maid”和“made”,“raise”和“raze”,“board”和“bored”,或者“muscles”和“mussels”。纯粹依赖声音的话,他也许就会以为“连环杀手讨厌玉米地”,或者认为“一克拉的钻石是某种橙色的奇怪形状”连环杀手(serial killer)与谷类杀手(cereal killer)同音,克拉(carat)与胡萝卜(carrot)同音。——译者注。而实际上我们能够轻易地区分这些同音不同义的词,这表明我们并不是非要把它们的发音读出来。我们有另一个通路来帮助消除这种模棱两可,然后直达词义。

纯粹以语音为基础的阅读理论还有另一个问题:从拼写到语音的过程并不是一条无障碍的高速公路。如果没有其他因素的作用,我们往往不可能单单从字母顺序中就提取出单词的发音。例如“blood”这个词。它看起来显然就应该读成[blud],并与“bud”或“mud”这类的词同韵。但我们是怎么知道的呢?为什么“blood”不跟“food”或“good”同韵?为什么它的发音一点也不像“bloom”或“bloomer”?即使是相同的词根,发音也有可能不同,像“sign”和“signature”。有一些词更特别,我们根本看不出它的字母组成与它的发音有任何的关联,如“colonel”“yacht”“thought”。在上述这些情况下,如果我们不事先了解这个词,我们就无法得知它的发音。

英语中不规则发音的现象俯拾即是。实际上,书面语与口语之间的鸿沟已经存在了几个世纪,莎士比亚的《爱的徒劳》(Love's Labour's Lost)即是佐证。剧中的书呆子霍罗福尼斯(Holofernes)说道:


我痛恨这种荒唐的妄人,这种乖僻而苛刻的家伙,这种破坏正字法的罪人:明明是doubt,好吧,他却说dout;明明是d-e-b-t,debt,他偏要读作d-e-t,det;他把calf读成了cauf,half读成了hauf;neighbour变成nebour;neigh的音缩作了ne。这简直是abhominable(令人憎恶),可是他说起来又是abbominable了。此类错误读音令人发疯。


英语确实是一种让人憎恨的不规则语言。萧伯纳(George Bernard Shaw)曾指出,“fish”这个词的发音,用“ghoti”也可以拼出,只要取“enough”中的“gh”,“women”中的“o”和“lotion”中的“ti”就可以!萧伯纳痛恨英语的这种不规则性,他甚至在遗嘱中为一项竞赛提供了支持,竞赛的目标就是发明一种完全合理的“萧伯纳字母表”。遗憾的是,这项活动从来没有真正成功过,可能是因为这种字母表与现有的所有拼写系统都相距太远了22

当然,萧伯纳的例子有点极端,没有人会真的把“ghoti”读成“fish”,因为字母“g”放在单词的开头时永远读[g]。同样,尽管有莎士比亚的存在,在今天的英语中,“alf”在词尾时总是发音为[af],例如“calf”和“half”。放在特定的上下文中,通常还可以看出一些更高级的规律,让字母和声音的对应更加简化。但即使是这样,例外仍是数不胜数,像“has”和“was”,“tough”和“dough”,“flour”和“tour”,“header”和“reader”,“choir”和“chair”,“friend”和“fiend”。对于大多数发音不规则的单词来说,提取发音就不是理解单词的基础,更像是理解单词的产物:只有识别出“dough”这个单词,才可以提取出它的发音。

拼写系统中的隐藏逻辑

也许我们会奇怪,为什么英语会坚持使用这样一个复杂的拼写系统呢?实际上,意大利语就不会面临英语的问题。意大利语的拼写是透明的:每一个字母对应一个独立的发音,几乎没有例外。正因如此,意大利人学习阅读只需要几个月的时间。这给他们带来了巨大的好处,意大利儿童的阅读能力比英语国家的儿童高出几年的水平,而且他们在学校也不需要每周花大量的时间在听写和拼读上。除此之外,我们后面也要讨论到,阅读障碍对意大利儿童来说也不是那么严重的问题。也许我们应该向意大利学习,烧掉词典,设计一个新的拼写系统,让3岁的孩子也可以轻松阅读此处的原文为:desine a noo speling sistem dat eeven a θree-yia-old tchaild cood eezilee reed,作者在示范意大利语的简单拼写系统是什么样子的。——译者注

毫无疑问,英语的拼写可以简化。不过现有的这些奇怪的拼写里充满了历史的积淀。今天的学生应该哀叹黑斯廷斯战役公元1066年,征服者威廉(William the Conqueror)从法国诺曼底出兵进攻英国,并在黑斯廷斯战役(Battle of Hastings)中确立了他压倒性的优势,进而统治了整个英格兰。——译者注,此战所带来的法语与英语的混合是形成这种让人头痛的语言的罪魁祸首,例如“c”被用作代表发音[s](如“cinder”)。而学术上几个世纪以来的保守主义,有时近乎迂腐,已经将我们的词典僵化。有些“好意”的学者硬要引入一些荒谬的拼写,如“island”中的“s”,因为一些误入歧途的文艺复兴学者想恢复拉丁词源“insula”。最糟糕的是,拼写没能随着口语的自然演变而演进。外来词的引入,以及英语发音的自然转变在英语的书写和口语之间制造了巨大的鸿沟,让英语国家的孩子们平白多受了很多年学习之苦。总之,理性的思考让我们认识到彻底简化英语拼写势在必行。

虽然如此,在真正改革英语之前,全面理解拼写系统中隐含的逻辑是非常重要的。拼写中的不规则现象并不仅是约定俗成的,它们来源于语言的结构和脑的结构。两条阅读通路,不管是从拼写到语音的语音通路还是从拼写到语义的词汇通路,都对书写系统施加了复杂且无法协调的限制。英语、意大利语、法语和汉语之间的语言学差异,导致不可能有一种拼写系统能满足所有这些语言。因此,英语中这些让人憎恨的不规则性似乎是不可避免的。虽然英语急需拼写上的改革,但这一改革必须先与大量的限制条件斗争。

首先,我们还不清楚英语是不是像意大利语一样,可以让每一个发音对应一个字母,而且每一个字母都有一个固定的发音。这件事做起来不简单,因为英语中所包含的发音数量比意大利语要多。根据说话者的不同及计算方法的区别,英语中音素的数量在40~45之间,而意大利语音素只有30个。英语的元音与双元音特别多:有6个简单元音,如“bat”“bet”“bit”“but”“good”“pot”中的元音;还有5个长元音,如“beef”“boot”“bird”“bard”“boat”中的元音;还有至少7个双元音,如“bay”“boy”“toe”“buy”“cow”“beer”“bear”中的元音。如果给每一个发音配备自己的书写符号,就必须发明新的字母,这又让孩子们学习起来更难了。可以考虑给已有的字母增加音标符号,如ã、õ或ü。不过,如果认为有一种普适性的字母表可以用来书写世界上所有的语言,这个想法未免太过理想化了。这样的拼写系统确实存在,它叫作国际音标(International Phonetic Alphabet),在音系学和语言学的技术出版物中起到了重要的作用。然而,这种书写系统实在太复杂了,用在日常生活中效果并不好。国际音标有170个字符,其中有一些特别复杂(如ɐ、ɓ、ɕ、ɮ或ɲ)。即使是专业人员,如果不借助词典,也很难流畅阅读。

为了避免学习过多的符号形状,像英语和法语这样拥有很多音素的语言,都必须做出妥协。为了表示某些元音或辅音,这些语言要么必须使用ü这样的特殊字母,要么必须使用“oo”或“oy”这样的字母组合。特定语言中的这些特殊现象,并非无端出现的装饰品,它们在阅读中起到了关键的“节约脑加工”的作用,任何一种拼写改革都必须考虑到它们的存在。

虽然英语没法简单地让一个单独的字母形状对应一个发音,但也许可以反过来进行尝试。如果能够系统地让每一个声音有固定的字母来代表,那么很多拼写错误就可以避免。例如,如果在写[f]这个声音的时候可以不必考虑是写“f”还是“ph”,那事情就变得简单多了。毫无疑问,我们可以轻松地去除这种多余的、耗费了大好童年时光的拼写规则。实际上,这正是美国小心翼翼的拼写改革所走的方向,他们把不规则的英式拼写“behaviour”和“analyse”简化成了“behavior”和“analyze”。沿着这个思路,还可以进一步向前。熟练的阅读者已经对英语拼写中的荒谬之处熟视无睹了,其实像“x”这样一个字母根本没有存在的必要,虽然这个字母很简单。因为“x”代表了[ks]这个发音,而这个发音已经有自己的拼写方法了。在土耳其,人们管出租车叫“taksi”。这个国家在一年内(1928—1929)采用了罗马字母表,大刀阔斧地简化了拼写,并且教会了300万人如何阅读,为拼写改革的可行性提供了绝佳的例证。

不过还是要非常小心。我怀疑任何一种激进的拼写改革,如果其目标是建立一种一对一的语音-文本转换的话,都一定会失败,因为拼写的作用并不仅仅是忠实地转录语音。伏尔泰说过“书写是声音的绘画,越相似就越好”,这种说法虽然意境优美,却是错误的。书写的文本并不是一种高保真录音。它的目标并不是像我们发音一样对语音进行复制,而是对语音进行编码,要让编码达到一个足够抽象的水平,以使阅读者可以快速提取出语义。

为了证明这个观点,我们可以试想一下,一个纯粹的表音文字系统会是什么样子,那是一种伏尔泰可能会认为是理想的书写系统。我们在说话的时候,一个单词的发音会因为它周围单词的不同而产生变化。假设拼写要反映这些说话者通常不会注意到的笨重的语言学现象,如所谓的协同发音(coarticulation)、同化(assimilation)和音节重划(resyllabification),那会非常糟糕。这样的话,上下文的不同就会导致同一个单词拼写不同。例如,我们是不是要用不同的书写方式来表示不同复数形式单词的发音呢?我们是不是要把“cab driver”拼写成“cap driver”,就因为[b]这个发音在[d]之前时通常发音类似[p]?还有一种极端的情况,我们是不是要把说话者的口音考虑进去(Do you take me vor a shicken)?这太荒唐了(apsurd,是的,我们说这个单词的时候发的是[p]这个音)。书写的首要目标是以最高效的方式来传递信息,而任何一种只刻板地记录语音的拼写都会偏离这个目标。

英语拼写往往看重词根的透明度,而牺牲了语音的规则性。例如“insane”和“insanity”这两个词,在意义上关系密切,如果非要因为发音的一点差异就把它们拼写得不同,那就太傻了。同样,因为“column”“autumn”“condemn”这些词派生出了“columnist”“autumnal”“condemnation”,在这些词中保留原单词中不发音的“n”也是很符合逻辑的。

这种凸显意义的拼写方式,至少也可以部分地解释英语为什么用很多不同的方式来拼写同一个发音。英语单词比较紧凑,并且多用单音节词,因此,同音异义经常出现,如“eye”和“I”,“you”和“ewe”。如果这些词用表音的方式书写,那么它们就无法区分了。拼写规范正是在这种限制中发展起来的。同音而拼写不同会使听写变得复杂,但是却给阅读带来方便,因为阅读者可以快速地掌握词义。学生们也许会抱怨同一个发音[u]有那么多种不同的拼法,像在“two”“too”“to”“stew”中,但是他们应该明白这些附加的规则对阅读速度至关重要。没有这些规则,任何书面文字都会成为生涩的字谜。多亏了这些拼写规范,书面英语可以直接通达语义。任何一种拼写改革都必须保持这种语音与语义之间的微妙平衡,因为这种平衡反映了一个更深层次也更严格的现象:我们大脑中存在两条阅读通路。

拼写透明的梦想

语音阅读和语义阅读的争论依然在全世界范围内进行着。每一套文字系统都必须以某种方式处理这一问题。依照语言的不同,最佳的折中方式也不同。如果英语拼写像意大利语或德语一样简单的话,那就轻松多了。然而意大利语或德语这类语言之所以能这么简单地进行从语音到拼写的转换,是受益于一些本身的特点。例如,在意大利语及德语中,单词通常比较长,由多个音节组成。语法的一致性在共振元音上得到了很好的体现。因此,同音异义词鲜有出现。由此可见,纯粹的表音拼写系统是可行的。意大利语和德语可以拥有一种透明的拼写系统,其中几乎每一个字母都与唯一的语音相对应。

中文则是另一种极端。绝大多数中文单词只有一两个音节,而因为总共只有1 239种音节(如果不算声调的话只有410种),每一个音节都可以指向数十种不同的意义(见图1-4)。因此,一个完全表音的书写系统对于中文来说是没有用的,每一种拼写都可以用上百种的方式来理解!这就是为什么中文的几千个字符大多数都表示单词或它们的词素,即表达语义的基本单位。中文的书写系统同时也依赖几百个表音记号,来进一步说明一个特定的字根如何发音,以便阅读者更容易知道它所表示的单词是什么。例如“妈”这个字,意思是“母亲”,发音为[mā],由一个词素“女”(表示女人)加上一个音素标记“马”[mǎ]组成。因此,与人们通常所认为的不同,即使是中文,也不是完全的表意文字(ideographic script,文字符号代表概念),它同样不是一种纯粹的语素文字(logographic script,文字符号代表单个单词),而是一种混合式的“词素-音节”(morphosyllabic)文字系统,其中一些符号代表词义,另一些符号代表发音23

图1-4 石室诗士食狮史

拼写的不规则性也并非毫无道理。虽然中文文字系统中用二三十个不同的字符来代表同一个音节,这种冗余也并非没有道理。相反,这对中文阅读者有很大帮助,因为中文中的同音词很多,也就是说,很多词发音相同但意义不同,就像英语中的“won”和“one”一样。本图中,你看到的整个中文小故事,只用到[shi]这一个发音!任何中文阅读者都可以理解这段话,而要是把这段话写成“shi shi shi shi……”的话就完全无法理解了。中文使用不同的字符来表示不同的意义,这一方法消除了声音上的模糊性。与此类似,同音词的存在也解释了为什么英语坚持用这么多不同的拼写方式表示相同的读音,如“I scream for ice cream.”。

当然,学习阅读中文比学习意大利语要难得多。学习中文时必须学会几千个符号,而学习意大利语只要几十个就够了。因此,中文与意大利语分别位于书写透明性这一维度的两个极端,而英语和法语则分别占据了中间的某两个位置24。在英语和法语中,单词较为短小,因此同音异义词出现得就相对频繁,如“right”“write”“rite”。为了应对这一限制,英语和法语的拼写规则中掺杂着表音与表意的文字,这给书写者带来了困难,却方便了阅读者。

简言之,我们才刚开始理解那些约束英语拼写系统的限制条件。我们最终有可能对英语进行改革吗?我个人对此的观点是:大幅度的简化势在必行。这是我们对子孙的义务,我们要帮他们免除这种浪费数百小时的残忍学习。此外,还有一些孩子可能永远无法适应这种学习,他们或是一辈子受困于阅读障碍,或者只是因为生在贫困家庭或多语种家庭。这些儿童是英语拼写系统的真正受害者。我希望我们的下一代将能因为手机与网络的使用,而非常熟悉简化的拼写,如此一来,拼写改革对他们来说就不再是禁忌的话题,由此能聚集足够多的人愿意理性地看待这一问题。然而,我们不可能通过简单地颁布一条法令,强制采用表音的拼写系统来解决这个问题。英语永远不可能像意大利语一样简单。规则化拼写的梦想可望而不可即,正如一本已在欧洲流行了一段时间的小册子中所写的:

欧盟委员会宣布,他们已达成共识,确定英语为欧洲沟通的首选语言,而不是另一种备选语言——德语。作为协议的一部分,英国政府承认英语的拼写有改进的空间,并同意进行一项为期5年的计划,发展名为欧洲英语(Euro English)的语言,简称欧语(Euro)。

在第一年,我们将弃用软音的“c”,而用“s”取代它。公务员们听到这个消息一定很高兴。同时,硬音的“c”将被“k”取代。这不仅可以减少混淆,打字机上也可以少一个字母了。第二年,我们要将讨厌的“ph”换成“f”,大众会因此热情高涨。这将使“fotograf”(photograph)这个词缩短20%。

In the first year, “s” will be used instead of the soft “c.” Sertainly, sivil servants will resieve this news with joy. Also, the hard “c” will be replaced with “k.” Not only will this klear up konfusion, but typewriters kan have one less letter. There will be growing publik enthusiasm in the sekond year, when the troublesome “ph” will be replaced by “f.” This will make words like “fotograf” 20 per sent shorter.

第三年,大众对这种新拼写方式的接受程度将会提高到一个新的阶段,令我们可以进行一些更加复杂的改变。政府将鼓励去掉双写字母,因为这降低了拼写的准确率。同时,大家也一致认为,英语中那些乱七八糟的、不发声的“e”非常讨厌,所以也要去掉它们。

In the third year, publik akseptanse of the new spelling kan be expekted to reach the stage where more komplikated changes are possible. Governments will enkorage the removal of double letters, which have always ben a deterent to akurate speling. Also, al wil agre that the horible mes of silent “e”s in the languag is disgrasful, and they would go.

到第四年,人们会乐于接受用“z”代替“th”,用“v”代替“w”这样的举措。在第五年中,不必要的“o”可以从那些包含“ou”的单词中去掉,而其他字母组合当然也可以采取同样的措施。

By the fourth year, peopl wil be reseptiv to steps such as replasing “th” by “z” and “w” by “v.” During ze fifz year, ze unesesary “o” kan be dropd from vords kontaining “ou”, and similar changes vud of kors be aplid to ozer kombinations of leters.

这5年过去后,我们的书写风格将变得非常合理,不会再有麻烦和困难,每个人都会觉得彼此之间更容易相互理解了。

After zis fifz yer, ve vil hav a reli sensibl riten styl. Zer vil be no mor trubls or difikultis and evrivun vil find it ezi tu understand ech ozer.

我们的梦想将最终得以实现!

Ze drem vil finali kum tru!

阅读的两条通路

在继续探讨之前,我想总结一下到目前为止所提到过的内容。所有的文字系统都在精确表音与快速表意之间摇摆不定。这种困境在阅读者的脑中有直接的反映。当我们阅读时,两条信息加工通路共存并互相补充。当单词很规则,或很不常见,或是第一次看见时,我们会优先利用“语音通路”进行加工。我们先将字符串解码,然后将其转换为语音,最后尝试提取这种发音模式的意义(如果它有意义的话)。相反,当我们看到很常见的或是发音很特殊的单词时,会采用直接通路,即词汇通路进行阅读加工,先识别单词并提取词义,然后再利用词义信息去提取它的发音(见图1-5)。

图1-5 单词阅读的加工在几条平行的通路上同时进行

从输入书面单词(左下)到输出其语音(右下)的过程中,脑依赖好几条通路,在图中用方框和箭头标示。当单词为规则词时,一条表层通路直接把字母转换为语音。当单词为不规则词时,例如“carrot”,更深层次的表征就会参与进来。这些表征类似于心理词典,将单词与语义联系起来。

从脑外伤及其造成的心理后果的研究中,我们可以找到支持两条通路存在的最佳证据。一些患者会由于中风或脑损伤而失去快速提取文字发音的能力25。显然他们从拼写到语音转换的语音通路被严重破坏了。虽然他们在脑损伤之前可以正常阅读,但在损伤后,他们的阅读表现出深层阅读障碍(deep dyslexia)或称语音阅读障碍(phonological dyslexia)的所有特征症状。虽然拼写能力完全没问题,但是他们再也不能大声读出不常见的词,如“sextant”,尽管这种词的拼写是规则的。此外,他们再也无法阅读新词或自造的词,如“departition”或“calbonter”。然而,令人惊奇的是,他们仍然可以理解常用词,而且基本上可以大声读出一些不规则的常用词,如“eyes”、“door”和“women”。偶尔,他们会将一个词与另一个词混淆。例如,深层阅读障碍患者可能把“ham”读成“meat”,或“painter”读成“artist”。这些错误的特点表明,患者基本上保留了提取单词意义的能力。如果患者没有理解,或至少部分地理解他想要读出的词,那么他根本就不可能提取出这词的正确词义。尽管深层阅读障碍患者已经基本失去加工出这些文字读音的能力,但是他们似乎可以识别书面文字。看起来好像一条从拼写到语音的阅读通路被阻断了,而信息仍然能够通过另一条从拼写到语义的通路进行加工。

而与之相反的情况也有过记录。这一次,一名患者所患的是另一种综合征,被称为表层阅读障碍(surface dyslexia),他们无法对词义进行直接提取,必须慢慢地读通文本,并把所有单词念出声。在这种情况下,“默读”的局限性更明显。表层阅读障碍患者仍然可以阅读发音规则的单词,如“banana”,甚至可以读出新词,如“chicopar”,但是他们却几乎完全无法读出不规则的单词。他们通常会通过盲目的声音转换来读出其标准化的发音。例如,有一名患者将“enough”读成[inog],然后发誓说他从来没听过这种奇怪的单词。很明显,该患者从视觉到心理词典的直接通路被阻断了,而从书面文字到语音的转换却仍然可以正常运作。

这两类患者的对比证实了我们拥有两条截然不同的阅读通路,但同时也证明,只存在一条通路时,不论是哪一条通路,人都无法读出所有的单词。直接通路,即从拼写通达单词及其词义的词汇通路,可以让我们读出大部分常见单词,但是这条通路无法应对罕见的或全新的单词,因为这些单词没有存储在我们的心理词典中。相反,间接通路,即从拼写到语音再到词义的语音通路,则无法应对像“women”这样的不规则单词,以及“too”这样的同声异义词,但是这条通路在我们学习新单词时起着不可替代的作用。

阅读时,两条通路总是处于合作之中,每一条通路都对单词的准确发音起到作用。单词的大多数音素可以利用简单的拼写-语音转换规则通过字母组合推断出来,而有时候,我们则需要借助更高的词汇和语义水平来处理一些偶然的模糊情况。儿童的这两条通路间的合作并不协调。有些儿童非常依赖直接的词汇通路,他们尝试对单词进行猜测,通常会把目标词读成同义词,如把“house”读成“home”。还有一些儿童则哼哼呀呀地读出一句话,然后痛苦地从单词的字母中拼凑出一个近似的读音,却无法从这些似是而非的读音中猜出意义。要发展成熟练的成人阅读者的那种完整协调的阅读系统,还需要多年的练习,使这两条通路密切合作。

目前大部分阅读模型都认为,流畅的阅读依赖于两条阅读通路间的密切合作,根据所读的词不同(认识的和不认识的、常见的与不常见的、规则的与不规则的)及阅读任务的不同(出声阅读还是文字理解),每一条通路所发挥的作用大小不同。在20世纪八九十年代,一些研究者试图用单通路的阅读模型来解释这些阅读现象。当时,神经网络模型的出现引发了热烈追捧。一些研究者把神经网络看成通用的学习机器,认为它们可以不需预先设定好认知结构,就能学会任意一种技能。他们认为阅读的习得可以建模为从字母输入到语音输出,而中间则由一个强大的学习机制来调整。研究者们希望找到一个网络,既可以模拟正常阅读,又可以模拟与阅读相关的那些疾病,且又不需要假定我们有多种皮质加工通路。这一类型的网络在当时代表了一种了不起的进步,特别是在拼写到声音转换过程的建模上26,然而今天的大多数研究者相信,这样的方法是不够的。

我自己的感觉是,在没有将脑的结构研究透彻以前,是无法对阅读进行建模的,因为阅读依赖于平行且存在部分冗余的多条通路。近年来的几乎所有模型虽然还是要依靠神经网络模拟,但是都将“多条阅读通路”这一核心思想贯彻其中27。在本书后面探讨阅读的脑机制问题时,我们将会看到,脑结构的一个核心特征就是其“多条平行通路”的组织形式。因此,甚至双通路模型都可能低估了阅读神经系统真正的复杂程度。将阅读加工划分为两条通路,一条从拼写到语音的语音通路和一条从拼写到语义的词汇通路,只不过是一个实用的粗略估计而已。

心理词典

如果只讨论将词素转化为音素的表层语音通路,那么认为阅读的内部加工过程只是一系列简单程序,就是合理的。只要将英语中的几百个词素和它们相应的发音之间的对应关系存储在脑中即可。然而,当我们考虑另一条深层通路,即词汇通路是如何识别数千常见单词时,则需要更大的存储。认知心理学家将这种存储比喻为一种词典,叫作“心理词典”(mental lexicon)。

毫无疑问,我们应当把心理词典看作是复数的,因为脑实际上存储了单词的很多类不同的信息。对于熟练的阅读者来说,每个人都拥有一本英语拼写的心理词典,其中列出了我们以往所知的所有单词的书写形式。这种正字法记忆很可能是以一种树形的层级结构来存储的,从字母到字素,到音节,再到词素。例如,“carrot”一词所对应的条目,应该类似[ca][rrot]。但是,我们同时还有另外一本“语音词典”,即一本记录单词发音的心理词典,例如“carrot”一词的发音为['kærət]。我们同时还有一个语法存储,它告诉我们“carrot”是一个名词,并且它的复数是规则变化的,等等。最后,每一个词还会与数十种语义特征相联系,详细地表明它的含义:“carrot”是指一种可食用的蔬菜,长条形,橘黄色等。当脑提取相关信息时,这些心理词典就一本一本地被翻开了。可以这么说:思维中存在着一座由数卷参考书组成的参考库,既有拼写指南,又有发音手册和百科词典。

心理词典中词条的数目庞大。实际上,人类的词汇知识被大大低估了。有一种广为接受的谬误,说拉辛(Racine)和高乃依(Corneille)在写戏剧时只用到一两千个词,一些原本知识很渊博的人也为这个谬误进行辩护。传言说有一种叫作基础英语的高度简化版的英语,只包含850个单词,但却能让我们有效地表达自己的思想;还有一些人佯称,一些市中心青少年的词汇量已经缩减到500!所有这些想法都错了。我们曾做过准确的估计,普通人的词汇量往往能达到数万之多。标准词典大约有100 000词条,而我们通过抽样程序发现,任何一个说英语的人都认识其中的大约40 000~50 000个单词,还不算复合词。另外每个人还认识大约同样数量的专有名词、缩略词(如CIA、FBI)、商标(如Nike、Coca-Cola)以及外来词,这些加起来,每个人的心理词典可能包含了大约50 000~100 000个词条。这些数值进一步证明了我们非凡的脑容量。任何一个阅读者都能轻易地从至少50 000个候选词中找到合适的词义,这一过程只需要花零点几秒,而它所依赖的只不过是视网膜上的几道光线而已。

“魔鬼的集会”

词汇通达的几个模型,实现了模拟在类似于神经系统所创造的条件下,人类阅读系统的行为。其中,几乎每一个模型都是在奥利弗·塞尔弗里奇(Oliver Selfridge)于1959年提出的几个观念的基础上发展而来的。塞尔弗里奇提出,心理词典的工作方式就像魔鬼的大型集会,或者叫“鬼蜮”(pandemonium)28。他把心理词典生动地比喻为一个由上万魔鬼围成的巨大半圆,而魔鬼们都在彼此竞争。每个魔鬼都只对一个词有反应,而且必须在这个词被喊到的时候大叫,以便让大家知道这是他的词。每当一个字母串出现在视网膜上时,所有的魔鬼都同时仔细地观察它。那些认为自己的词可能出现了的魔鬼就会大叫起来。因此,当“scream”(喊叫)这个词出现时,负责这个词的魔鬼就会大叫,但是他的邻座,那个对“cream”(奶油)进行编码的魔鬼也会大叫。“scream”还是“cream”?短暂的竞争之后,代表“cream”的魔鬼放弃了,很明显,他的对手从字母串“s-c-r-e-a-m”这一刺激中得到了更强的支持。至此,这个单词就被识别出来了,并且可以进入系统的后续加工。

在这个简单的比喻背后,隐藏着关于阅读过程中神经系统工作方式的几个关键观点:


海量的并行加工:所有的魔鬼都同时工作。因此我们不需要按顺序逐个检查所有的50 000个单词,如果是序列查找的话,这一过程就会根据我们心理词典的大小而变得极其耗时。而鬼蜮的并行加工方式则让我们的加工效率有了实质性的提高。

简单性:每一个魔鬼都完成一个基本任务,只是检查刺激字母与自己的目标词的匹配度。因此,鬼蜮模型不会像民间心理学中的模型那样陷入思维陷阱,假想出一个小人儿掌控着我们的大脑。如果有这么个小人儿,那么他的脑又是谁来控制的呢?一个更小的小人儿吗?从这个方面来看,鬼蜮模型可与哲学家丹尼尔·丹尼特(Daniel Dennett)的名言相比:“我们从思维的图式(scheme)中丢弃了那个幻想出的小人儿,而改用一大群这样的傻瓜来做这个工作。”29

竞争与强健:魔鬼彼此争夺表征正确单词的权利,这种竞争过程使我们变得灵活而强健。鬼蜮会根据当前任务的复杂程度进行适应调整。当没有其他竞争者时,即使是一个罕见且拼错了的单词,如“astrqlabe”,也可以被快速辨认出来。代表这个词的魔鬼即使在一开始喊得很小声,也总能轻松地战胜所有竞争者。然而,如果出现的刺激是一个像“lead”这样的单词,很多魔鬼都会被激活,即那些代表“bead”“head”“read”“lean”“leaf”“lend”等的魔鬼,在代表“lead”的魔鬼胜出之前,众鬼将经历激烈的争斗。


所有这些简化的特征都与神经系统的主要特征相吻合。人类的脑大约由一千亿个细胞组成,简直就是一个巨型的并行计算系统的原型,所有神经元都同时进行运算。这些神经元之间的被称为突触的连接,从外界的感觉刺激中为神经元带来计算的依据。此外,还会有一些突触是抑制性的,即当该突触的源头神经元放电时,其他神经元的放电就被抑制了。加拿大的神经生理学家唐纳德·赫布(Donald Hebb)将这种并行运算形容为一种神经网络,名叫“细胞集群”,指不断竞争的神经细胞之间的联合。因此也无怪乎塞尔弗里奇的鬼蜮模型为那么多有关神经系统的理论模型提供了灵感,其中也包括第一个阅读的神经网络模型。图1-6显示了最早的这类模型中的一个,该模型由杰伊·麦克莱兰(Jay McClelland)和戴维·鲁姆哈特(David Rumelhart)在1981年提出30。这个模型包括了类似神经元的单元所组成的三个层级。

图1-6 麦克莱兰和鲁姆哈特的模型

单词识别就像是在一个成千上万字母和单词单元的大集群中,各单元彼此合作找出输入字母串的最佳解释的过程。本图仅显示了麦克莱兰和鲁姆哈特模型中的一小部分。该模型中,输入字母串的基本特征激活字母探测神经元,而字母探测神经元再优先连接到包含这些字母的单词的探测神经元。这些连接可以是兴奋性的(箭头)也可以是抑制性的(圆头线段)。而单词单元通过激烈的竞争最终选出一个获胜的单词,这个单词就是输入字母串在网络中所产生的最佳结论。


◆ 在最低层,输入处理单元对呈现在视网膜上的线段灵敏。

◆ 位于中层的是字母探测单元,在出现某个字母时放电。

◆ 最顶层的单元对整个单词进行编码。


所有这些单元都被千丝万缕的连接紧密地联系在一起。这种数量庞大的连接使得这一网络的运作变成了一场复杂的政治博弈,字母和单词彼此支持,彼此检查,或者彼此消灭。仔细观察这张图表,你就可以看到,既存在由箭头表示的兴奋性连接,又存在以圆头线段表示的抑制性连接。它们的职责是传递每个魔鬼的投票。每一个输入探测神经元都对某一特定的特征进行编码,如竖直线,然后将刺激信息传递给所有包含这一特征的字母——为了简单起见,我们可以说每一个视觉神经元都对这些字母是否进入下一层级进行“投票”。同样,在下一个层级上,字母探测神经元便依据每个单词相应的单元所提供的刺激,共同推选出某些单词。例如,“A”和“N”的出现,可以支持“RAIN”和“TANK”这两个单词,而对单词“RAIL”只有部分支持,对单词“PEST”则完全不支持。

抑制在筛选最佳候选词时也发挥作用。由于抑制性连接的存在,每个字母都可以给那些不包含它们的单词投反对票。例如,对“N”进行编码的单元会通过抑制的方式给“RAIL”这个词投反对票。此外,互相之间存在竞争的单词会彼此抑制。因此,出现“RAIL”时就不能识别为“RAIN”,反之亦然。

最后,自上而下的连接也是必要的,即从单词到其组成字母的连接。我们可以把这一过程比喻为参议院,单词在参议院中代表了字母的声音,并且会反过来支持选举出它们的那些字母。互利的连接创造了一种稳定的合作关系,可以避免偶然出现遗漏字母的情况影响单词的识别。例如,如果单词“crocodile”中少了一个“o”,与“o”相邻的字母们仍然会选举出“crocodile”一词,而这个词又会反过来支持词中间的“o”出席,虽然书写时把它漏掉了。最终,为了支持这种将单词、字母、特征联系起来的巨量的统计学约束,我们需要上百万的连接。

还有其他一些微妙的特性使得整个网络得以流畅运行。例如,每一个单词所对应的单元的放电阈限可能会不同。常见单词的阈限比罕见单词的阈限低,在拥有等量的自下而上的支持时,常见单词更容易胜出。最近的一些模型还纳入了对字母位置的细致编码过程。所产生的网络运作模式非常复杂,已经无法进行算术描述了。我们必须借助电脑模拟的方法才能知道系统识别出正确单词所需要的时间,以及它出错的频率。

并行阅读

认知科学家们之所以愿意大费周章地研究出这些复杂的阅读模型,是因为这些模型给出的预测结果与实证结果相当吻合。这些由塞尔弗里奇的鬼蜮得到灵感的模型,不仅可以再现那些关于阅读速度和阅读错误的经典实验结果,还引领我们发现了微妙的新现象,这些新现象构成了人类阅读行为的核心特征。

如果要设计一款书面文字识别软件,很可能不管选择哪一种方案,程序都会随着单词的变长而变慢。例如,一种很自然的方式是让软件从左到右一个一个地处理字母。正因为信息的加工是序列化的,我们可以预期,识别一个由6个字母组成的单词所需要的时间应该是一个由3个字母组成的单词的两倍。在任何一种序列化模型中,识别时间的增加与单词中字母的数量直接相关。

看过这个例子之后,我们就会注意到,人脑中并不存在这种阅读时间与字母数量的相关关系。对熟练的成人阅读者来说,阅读一个单词的时间基本与单词长度无关。只要单词不要超过6个或7个字母,那么不管多长,单词的识别时间都基本恒定31。显然,这暗示我们,脑利用了一种并行的字母处理机制,能够同时处理所有字母。这种实证结果与我们的“扫描仪”比喻产生了分歧,但它却正好印证了鬼蜮的假设,即处于特征、字母、单词等不同层级上的成百万专门化的加工机制同时并行地运作。

主动的字母解码

我们再深入探讨一下这个计算机比喻。在传统的计算机程序中,信息的处理通常是通过一系列步骤来完成的,不论是最简单的还是最抽象的处理过程都是如此。我们可以合理地想象,应该有一段子程序是用来识别单个字母的,然后另一段子程序将它们组成字素,最后,第三段子程序检查该字母串可能是哪一个单词。然而,这样的程序通常来说容错能力非常低。第一阶段的一点错误往往会导致整个认知过程的瓦解。实际上,即使是我们现在购买扫描仪时所附赠的最好的自动文字识别软件,也仍然对图像质量的下降非常敏感。哪怕只是扫描窗口上一点点的尘埃,也会使一页人类阅读起来完全无碍的文字变成电脑“无法识别”的乱码。

与电脑不一样,视觉系统善于解决那些不确定的问题。我们来做一个小实验,你可以自己读一下下面的句子:


Honey bccs sovovr sweet ncctar(蜜蜂品尝甜花蜜)。


在你不知道的情况下,你的眼睛成功地跨越了一系列的障碍,而这些障碍完全可以难倒传统的电脑程序。你是否注意到了,在单词“bee”当中,那个重复的字母其实是“c”?实际上,在拼写“nectar”(花蜜)这个词时,我也用了两个“c”,但是你的视觉系统把第一个“c”当作了“e”,而第二个才当作“c”。“savour”(品尝)这个词更糟糕,“a”和“o”一模一样,“v”和“u”也没有差别!上下文帮我们解决了这种不确定性:因为“souour”这个字母串在英文中没有意义,而如果把它理解为动词“savour”的话,整个句子就通顺了。

简言之,对于这些可以难住当今任何软件的不确定性,人类阅读者可能都感觉不到。这种容错性与传统计算机软件相冲突,然而却非常符合鬼蜮假设的框架,因为字母、字素与单词可以通过大量冗余的连接而互相支持。字母、单词与上下文的合作,足以让脑中的阅读机器更为“强健”。阿尔维托·曼古埃尔说得很对:是阅读者赋予了书面文字意义,阅读者的“有能之眼”给那些本来僵死的字母带来了生命。字母与单词的识别来自一种主动的、自上而下的解码过程,通过这一过程,脑在视觉信息中加入了新的信息。

心理学家们发现,这种主动的解码过程在词优效应(word superiority effect)中得到了很好的体现。在杰拉尔德·赖歇尔(Gerald Reicher)的经典实验中32,主试要求成年阅读者从两个可能出现的字母,如D或T中,找出哪一个曾短暂地出现在电脑屏幕上。通过调整难度,实验保证被试只能偶尔给出正确的答案。在一些试次中,字母单独呈现。在另一些试次中,同样的字母(D或T)在其他字母的伴随下出现,组成一个词,如HEAD或HEAT。注意,其他字母并没有带来有用的信息。因为两种情况下前面所出现的字母串“HEA”都是一样的,被试只能根据最后一个字母来判断。然而,令人惊奇的是,相比字母单独呈现的情况,有其他字母出现时被试的成绩要好得多!也就是说,在有上下文的情况下,字母识别的效果要好很多。看起来,由单词层级所提供的额外支持扫清了输入信息中的一些干扰。即使把字母插入一个假词中(如GERD或GERT),甚至是插入一个看起来像单词的辅音字母串中(如SPRD或SPRT),词优效应都依然存在,但如果字母串由随机的字母组成(如GQSD或GQST),这个效应就消失了33

这一现象也难以用严格的线性信息处理模型来解释,因为在这些模型中,必须先识别单个字母才能将字母组合成更大的单元。相反,赖歇尔的词优效应却支持视觉单词识别中的冗余连接和并行加工。即使将注意力集中于单个字母上,我们也会自动地从这个字母所在的上下文中获益。当这种上下文环境是一个单词或单词的一部分时,我们可以进行更多层级的编码(字素、音节和词素),而来自这些层级的“选票”,为这些字母识别单元提供了支持,从而加快了对字母的知觉。很多阅读模型对赖歇尔效应的解释是字母与单词在双向加工过程中有交互作用:那些较高层级的字素和单词探测单元协同工作,一致更倾向于识别那些与他们对输入字母串的理解相匹配的字母。我们看见什么,取决我们认为自己看见了什么。

阅读中的协作与竞争

我们已经知道,用电脑来比喻阅读,也就是将人类阅读者比作一台简单的扫描仪,显然是不够的。单词的解码并不是一个严格的序列加工过程,阅读一个单词所需要的时间与单词中含有多少个字母无关。所以我们要再次回到鬼蜮模型,将单词识别看成是魔鬼集会的成果。集会达成重要决策所需要的时间,也就是“汇聚时间”,并不依赖于他们所讨论的“动议”本身的内容,而是取决于这个动议引发的争论有多激烈。如果所有的参议员都同意,即使是一项再复杂的法律也可以很快通过。相反,即使只是法律中的一个小细节,如果触及敏感问题,则可能要经过长时间的争论才能达成一致。

关于人类阅读的研究表明,阅读者的脑活动就像一个思维的参议院。单词的识别需要脑系统中多个单元共同得出对视觉输入信息的确切解释。因此,阅读一个单词所需要的时间主要取决于这个单词在脑结构中引发了哪些冲突与联合。

多年以来,实验心理学家们已经发现,在单词加工的所有水平上都有可能出现冲突。例如,在词汇水平,我们已经知道单词可以与它们的“邻居”竞争,即与那些只有一个字母之差的单词竞争34。例如“hare”这个单词有很多邻居,如“bare”“care”“dare”“fare”“mare”“pare”“rare”“here”“hire”“hale”“hate”“have”“hard”“harm”“hart”,而“idea”这个单词则像一个孤独的隐者一样没有邻居。实验表明,单词的邻居数量,特别是邻居的相对词频,对单词被识别的速度有关键的影响35

很多时候,有一些邻居是好事。一个单词有越多的邻居,我们就能越快地断定它属于英文单词。邻居的存在显示出,相比于“idea”而言,单词“hare”的拼写是更典型的英语拼写。而密集的邻居也可以提供更好的学习机会。我们有更多的机会去学会那些以“are”结尾的单词应如何发音,而要学会以“dea”结尾的单词的发音则只有一次机会。因此举目无亲的“idea”在视觉和语音两个水平上的编码都要略逊一筹。

然而,邻居太多也会造成干扰和烦恼。要理解或读出一个单词,我们对单词的识别就不能模棱两可,要将单词与它的邻居区分开,如果邻居们更常见,并因此在词汇的竞争中占有优势的话,这一加工过程就会特别缓慢且困难。因此,要识别出“hare”这个单词就相对慢一些,因为它与很多非常常见的词,如“have”和“hard”间存在竞争36。心理词典就像一个竞技场,竞争激烈,而那些常见的单词在与它们的低频邻居的竞争中拥有明显的优势。

竞争也存在于从拼写到语音转换的语音通路中。例如,要读出“beach”这个词就比读“black”耗时更长。在“beach”中,输入的字母串必须被解析成复杂的字素“ea”和“ch”,而它们的读音与单字母的“e”“a”“c”“h”之间有巨大的差别。另一方面“black”这个词由于其字母与语音有直接的对应,读起来更加容易。实验心理学可以很容易地证明存在这种字母水平与字素水平之间的潜在冲突。在识别由复杂字素组成的单词时,会产生一个短暂的无意识竞争,虽然这一竞争会很快结束,但是相比于像“black”这样更透明的单词,这种竞争会引起可测量到的反应延迟37

值得注意的是,这些冲突大部分可以自动解决,不需要有意识地干预。当神经系统遇到不确定性时,它的基本策略是对所有的可能性保持开放——这种策略只有巨大的并行计算系统才能实现,因为它可以同时保留对刺激的多种解释。正是因为有了这种开放式的组织形式,在后续各水平的分析过程中才可以添加相应的证据,直到最后得出整体满意的结论。有时候,只有知道了句子的上下文,才有可能理解一个词的意义与发音。想一想这类句子:“The road winds through a valley battered by fierce winds.”(这条路蜿蜒地穿过被狂风肆虐的山谷。)实验证明,在这类情形下,单词的所有可能解释都同时被无意识地激活了,直到上下文将解释限定为一个词义38。我们的阅读过程十分高效,我们几乎意识不到这种不确定性,除非这种不确定性非常有意思,正如多萝茜·帕克(Dorothy Parker)在错过截稿日期后给她的代理人所发的电报那样:“就跟编辑说我忙得要死——反过来说也行。”原文为:Tell the editor I've been too fucking busy—or vice versa.反过来说即为“too busy fucking”。句中的fucking为脏话,有多种意思,用以增强表示愤怒、烦恼等的语气。——译者注

从行为到脑机制

在这一章中,我们探讨了如何将阅读分解为一系列信息加工阶段。从视网膜图像加工,到字母识别的恒常性,再到发音、词素的识别,最后一直到心理词典中的冲突解决,人类阅读机制之高效让我们叹为观止。只需一瞬间,几乎不费吹灰之力,脑就解决了当代软件技术无法逾越的困境。对于单词中所包含字母的并行加工,对于不确定性的处理,从心理词典中的大约50 000个词中瞬间找出一个词的能力,都说明了脑对阅读这一任务的出色适应。

人类阅读加工过程的惊人高效性让其产生机制越发神秘。既然人脑不可能针对阅读而专门进化,那它又是如何适应得如此之好呢?这种从奇怪的双足灵长类动物转变而成的狩猎收集者的脑结构,为什么能在短短几千年的时间内就如此完美地适应了视觉文字识别所带来的挑战呢?为了阐明这个问题,我们现在将转而探讨脑中的阅读回路。最近一项惊人的研究发现,大脑皮质中有一个专门处理书面文字的区域,就像初级听觉区或运动皮质一样,这个文字区域存在于所有人的脑中。更令人惊讶的是,不论阅读者说英语、日语还是意大利语,这个阅读区域都是相同的。这是否意味着大脑拥有一种通用的阅读机制呢?