第二节 词汇语义特征数据:研究进路和发展历程
一、语义特征分析的两条进路:专家内省和人群调查
就语言学视野下的词汇语义分析而言,李葆嘉(2013,5-22页)提出,义场理论提供了理论基石,语义特征分析提供了技术基石,而关系语义理论则通过扬弃“词汇语义结构自主性这一理想”,为词汇语义分析拓展了百科知识视野。李葆嘉还提出了基于受限理论的义场建构和义征发掘方案,并在《现代汉语析义元语言研究》(2013)中分析了1077个常用义位。值得注意的是,在该研究的整体设计中设置了结果评估环节,要求对义征分析结果进行人群调查和辞书语料比对,以人群一致性和义位还原率作为评价指标,对义征表达式的信度和效度进行验证(李葆嘉,2007a,370-372页)。在语言学视野下,以往的汉语义征分析研究几乎都采取内省分析进路。李葆嘉的析义元语言研究,可能是首个认识到需要引进人群调查的汉语义征分析方案。医学视野下的义征分析研究进路也主张采用调查。但是,它把调查当作采集经验性数据的手段,而不是最后结果的验证方法。这种差别可能有研究目标和历史渊源这两方面的原因[8]。
从研究目标来看,虽然认知实验可以为内省分析结果提供实证支持,但语言学视野下的义征分析,目的不是为了研究认知障碍和认知问题,而是为了获取语言知识,建构词汇语义系统。在医学视野下,词汇语义系统的建构,只是探索认知障碍、构建认知理论和寻求实验依据的手段,而不是义征分析的目的。
从历史渊源来看,无论是内省法还是调查法,“范畴化”(categorization,范畴划分)始终是义征分析的重要甚至是核心主题。语言学的内省式义征分析,希望在义征分析基础上进行义场建构或范畴划分,并反过来推进义征分析。这种互动性的操作体现在二值化的义征描写系统中。也就是说,义征表达式中的正负标记,是专家人工进行场内和场间划分形成的(李葆嘉,2013,135-152页)。这种情况下,义场是义征存在的前提,是义征之所以要分析化和颗粒化的先决条件。也就是说,内省式的义征分析必然要借助义场,并让义场体现在义征系统中,不存在“范畴能否从现有的义征系统中涌现出来”这样的问题。但是,这却是调查式义征分析的基本问题之一,即试图证明仅凭义征的组织结构信息就能够划分出符合日常体验的范畴(Farah&McClelland,1991;Garrard et al., 2001;Cree&McRae,2003)。这种差异,也将体现于本研究将要对汉语析义元语言和经验性义征数据集的分析之中。如果要考察这种差异的来源,就需要关注认知语义学和认知心理学在范畴化研究上的差异。
吉拉兹(D.Geeraerts)在《欧美词汇语义学理论》中指出,认知语义学和认知心理学中的范畴化研究,在术语系统、研究范围和观念分合方面,存在明显分歧(Geeraerts,2013,277-282页)。认知心理学热衷于实验数据采集和统计建模,利用义征比对和权重赋值来划分范畴。虽然其研究范围往往限于具体名物,但更愿意采用综合化观点来看待范畴结构。认知语义学更多关注理论的质性推演,而不是实验的量化分析。它往往利用“上下义”等关系语义标签来构建语义系统和划分范畴。虽然其研究范围不仅局限于名物,还包括形容词、动词、介词等在内,但在范畴结构观的综合化程度上要低于心理学研究。自从1984年,沃林顿和沙立科提出范畴特异性语义损伤(Warrington&Shallice,1984)后,医学领域在占据患者资源的优势下,持续支持、吸收和应用认知心理学的实验研究成果,从而加大了与语言学视野的差异。
如果回溯源头,语言学和心理学在范畴化研究上的发展都来自20世纪70年代罗希(E.Rosch)的典型理论(prototype theory)[9]。在其代表性报道(Rosch&Mervis,1975)中,她采用了基于语义特征的概念结构观:
罗希明确表示,家族相似性这个术语来自维特根斯坦(Wittgenstein)。这个术语最初是维特根斯坦的一个哲学论断:事物因特征相似而聚类,但并不能就此认为,类别的所有成员都必须要具备某个不可或缺的关键特征。家族相似性,即一系列特征重叠关系,使事物得以聚类(Wittgenstein,2000,46-48页)。罗希把它作为语言学中描述语义类别的结构特征的术语,并且提供了可量化的操作性定义:首先找出类别中的每个成员(概念)的特征,然后把类别中出现的所有特征都罗列出来;然后计算每个特征在几个成员中出现过,即特征的属概量[11];最后对每个成员计算其所含各个特征的属概量之和,就得到这个概念的家族相似性基础值,而其各特征的属摡量的对数和,则是这个概念的家族相似性高阶值(Rosch&Mervis,1975)。用这种方法计算的家族相似性值,反映了每个概念与其他概念共享义征的程度。
罗希首先借助“您觉得椅子在多大程度上能代表家具这个类别”这样的问题,让受试者为概念进行典型度分级(prototypical rating)。用1-7级表示,1级表示最典型,7级表示最不典型。最终获得6大类共120个概念(每大类有20个成员)的典型度。然后用这120个概念作为刺激,让受试者为各个概念提名义征,由此计算家族相似性。罗希发现,概念的典型度与其家族相似性基础值或高阶值显著正相关(斯皮尔曼秩相关系数均大于0.8)。由此借助义征分析解释了概念聚类。
罗希还根据抽象程度,把概念分成三个水平:上位范畴(superordinate categories)、基础范畴(basic categories)和下位范畴(subordinate categories)。例如,“家具”是上位范畴水平,其成员“桌子”属于基础范畴水平,而“桌子”的成员“餐桌”“书桌”和“办公桌”则属于下位范畴水平。在对基础范畴成员的义征进行描述时,她既做了义征分析,又包含了对范畴习得的推测,还指出语义特征有视觉和运动两种不同来源:
同属一个上位范畴的基础概念相互之间会产生干扰。例如,在上位范畴“家具”下,基础概念“椅子”,其干扰概念可以是“沙发”或“桌子”。罗希选出6个基础概念(轿车、汽车、飞机、桌子、椅子和灯),并为每个概念都配了15张图(相当于15个下位范畴水平的成员)。她调查了这些图片的概念典型度和义征。通过把典型度和概念间义征重叠程度进行比较,她发现,一张图片的概念典型度越高,它与干扰概念之间共享义征数就越少。由此借助义征分析解释了概念分类。
为了筛查出最稳固的基础概念,罗希先让检查者说出义征,然后让受试者猜测是什么概念(Rosch&Mervis,1975,590页)。这种概念还原法实际上就是让受试者根据义征表达式还原义位。因此,内省法和调查法这两种义征分析进路,是从罗希的范畴研究开始综合运用,但又在语言学和心理学的后续发展中各有侧重。
罗希的上述范畴研究凸显了三个重要观念:①语义特征分析是词汇语义系统研究的基本操作工具;②义征重叠关系(概念之间共享义征)是词汇语义系统的基本构成关系;③义征可以根据感官信息的性质(如视觉或运动信息)进行分型。它们分别对应于语义特征数据采集、语义网络建模和语义特征分类这三个方面。
二、经验性语义特征数据库的发展历程
经验性语义特征数据的采集、分析和使用,在心理学以及相关领域,尤其是有关范畴、概念结构或语义记忆的研究中,已经得到广泛使用。但是,迄今还没有出版针对该技术的批判性综述。一方面,可能因为多数报道都只展示数据分析结果,而没有公开所建义征库。另一方面,可能因为数据解读方法尚处于发展之中,对语义特征数据还有待精加工和深入分析。例如,义征间关系研究(Rein, Love,&Markman,2007;Taylor et al., 2012)和义征质性分类方法的应用研究(Wu&Barsalou,2009)仍在不断发展。本研究主要根据三个条件来选择需要考察的文献。首先,数据集及其加工成果可公开获取。这是深加工和跨文化比较的基础,尤其是与汉语语义特征数据库比较。其次,数据经过深加工,既有质性分类,又有量化分析。这利于在言语治疗或其他专业领域拓展应用。最后,在文献发表前后,有使用该数据库的报道。这通常是围绕一个数据库的长期性的团队研究,由此确保数据库是长期维护的成果,具有持久的应用价值。另外,还纳入笔者主观选择的一些早期和近期文献,它们对义征质性分类或量化分析有重要贡献。
首先进入视野的是马尔特(B.C.Malt)和史密斯(E.E.Smith)对义征间关系的研究(Malt&Smith,1984)。在罗希的家族相似性研究(Rosch&Mervis,1975)中,义征是相互独立的。但是,这是一种违背基本常识的假设。例如,<危险的>、<锋利的>和<用来切割>明显相关。它们会让人推断刀这个概念,同时还会想到<有刃>和<金属制成>等其他特征。罗希认识到在同一事物中,往往会有多种特征同时出现,从而形成义征丛,而人们可以借助这种丛集关系来推断概念(Rosch et al., 1976)。但是,马尔特和史密斯指出,罗希所提到的义征间关系只是间接的共现关系,而不是直接的因果关系。因此,他们希望用实证研究来检验义征间关系是否真实存在(Malt&Smith,1984)。为了考察这种因果关系,他们提出要通过统计分析寻找耦合义征(correlated property),即征偶(成对义征)[12]的两个义征的出现与否,需要符合“全或无”的规律:有则共现,无则同缺,即一方义征的出现意味着另一方也必然出现,而一方缺失则意味着另一方也必然不会出现。在实验的第一步,他们选取302名受试者,对家具、鸟类、水果、花、树和服饰进行义征采集。家具有20个样例,其余均为15个样例。向受试者呈现印有单词的纸张,让他们列出能想到的所有义征,但要求避免做自由联想。例如,鸡蛋列出【胆固醇高】和【有蛋白】是义征,如果列出【胆固醇】和【蛋白质】则是自由联想。为确保最后纳入分析的义征具有稳定性和实际意义,采取以下标准纳入义征:至少得到三分之一以上受试者提名,以及至少被同范畴两个样例所持有。经过这样处理后,家具剩余17个义征,鸟类剩余19个义征,其余范畴各选出12个义征。在实验的第二步,另选80名受试者,向他们提供范畴内的样例,并且在样例下方列出在第一步实验中获得的该范畴的所有义征,要求受试者评估每个义征能在多大程度上符合该样例的特征。例如,<有爪子>有多符合猫头鹰,<位于卧室>有多符合镜子。符合度分成1-10级。每个受试者都会给每个范畴生成一个“样例×义征”矩阵,矩阵格子中填入符合度。使用皮尔逊相关性检验,当一个义征与另一义征的符合度在同范畴样例中的分布呈显著相关时,无论其相关系数是多少,都可以认为这两个义征彼此间有可靠的耦合关系。通过在范畴中增删某些样例后再次统计相关系数,马尔特和史密斯还发现,在增删炉灶、地毯和电话这些样例时,家具中的义征相关关系几乎不受影响,而增删蝙蝠会对鸟类产生较大影响,增删手杖、手表和项链对服饰的影响也是如此。
就词汇语义特征分析的发展而言,马尔特和史密斯的研究有两大贡献。其一,指出在不同自然范畴内,义征关联结构有疏密之分。有些义征丛虽然不一定能获得恰当名称,但对概念而言是不可忽视的关联结构。其二,指出需要辨析义征类型和征间关联类型。在他们所举的例子中,主要关注了视觉、功用和百科知识型的义征,并且认为征间关联可能源于功用相关,也可能源于经验知识。这既是义征质性分类的萌芽,又是基于征间关联而不是标签词频对义征进行量化分析的起点,同时还明确提示征间关联也有类型之分。由此,义征分型、征间关联及其分型这三方面串成一条主线,贯穿了义征数据集发展的全过程。
法拉赫(M.J.Farah)和麦克莱兰(J.L.McClelland)为了证明关于范畴特异性语义损伤的感觉-功用假说,建立了一个并行分布式处理模型,对语义记忆系统进行模拟(Farah&McClelland,1991)。在这个模型中,存在大量的义征处理单元。这些单元分布在三个处理池中:视觉池、言语池和语义记忆池。视听信息通过视觉和/或言语池进出语义记忆池,而语义记忆池内则存在一些单元分别处理视觉型义征和功用型义征。前两个池与语义记忆池的视觉和功用单元之间存在双向互动的关系,由此形成一个在视觉和言语两方面处理感觉和功用信息的模型。由于感觉-功用假说解释的是语义任务表现出来的生物和非生物范畴损伤的分离,因而该模型必然要遵循感觉-功用假说的基本设定:生物与非生物的感觉型义征和功用型义征存在显著的比例差异。用于验证该模型的义征数据来自调查。实验选取沃林顿和沙立科论文中实验2(Warrington&Shallice,1984)使用的动植物和非生物概念各48个,把各个概念的词典释义提供给受试者,让他们把描述对象特征的词语画线标注出来。受试者共42人,分为两组,一组标注视觉义征(对象的视觉形态描述),另一组标注功用型义征(对象的行动或用途描述)。法拉赫和麦克莱兰首先计算出不同类型义征的数量,发现视觉型与功用型的比值在生物为7.7,而非生物为1.4,总体为2.9。他们假定这种比例符合自然对象的感觉功用特征的比例,从而用其设置模型输入信息。罗杰斯(T.T.Rogers)和普劳特(D.C.Plaut)在对法拉赫-麦克莱兰模型所做的详细述评(Rogers&Plaut,2002)中,指出模型内各单元的激活采用的是随机模式,虽然它们的配比遵循了义征类型的实测比例,但其中隐含的义征独立性假设违背了义征互联这一事实。但是,法拉赫和麦克莱兰的义征集的确体现了按照义征类型(视知觉和功用)来采集和建立经验性义征库的努力。
1997年,麦克雷(K.McRae)、德萨(V.R.De Sa)和赛登博格(M.S.Seidenberg)报道了自建的义征数据集,并且计算征间关联,继而与其他行为学检测数据进行比较,了解征间关联对词义处理的影响(McRae, De Sa,&Seidenberg,1997)。该研究在义征分析方面主要有三个贡献。
其一,建立国际上第一个用义征提名法采集的大型义征数据集,提供了规范的建库流程。
这个数据集收录的是名物概念的义征,包括2个领域共10个范畴,每个范畴含19个样例:生物(鸟类、哺乳类、水果、蔬菜,共76个样例)和非生物(服饰、家具、厨房用品、小工具、交通工具和武器,共114个样例)。每个样例共有30名大学本科生或研究生提名其义征。提名所得的原始反应条目需要经过标准化转写才能变成义征条目。这种转写遵循了一些基本规则(Garrard et al., 2001;McRae et al., 2005;Vinson&Vigliocco,2008;Kremer&Baroni,2011;Lenci et al., 2013;Montefinese et al., 2013),包括忽略次要信息、拆解复杂信息、合并同质信息、添加提示符和表决法修正。
忽略次要信息:原始反应条目中的表示估计的usually、can或generally等词,通常与义征的提名频次有关。除非有特殊原因(例如研究主观评价程度),否则这些信息都会从义征条目中删除。
拆解复杂信息:这是复杂信息的颗粒化操作。例如,马的原始反应条目【有四蹄】拆解为<有→蹄>和<有→四蹄>。前者为部件型义征,后者则是数量型。又如,香蕉的原始反应条目【黄色或青色】拆解为<黄色的>和<青色的>,很显然,义征的质性分类方案对这种操作有影响。另外,还要考虑受试者的反应条目。只要有一人产生了复杂条目中的局部信息作为反应条目,就必须把所有相关条目都拆解出来。例如,【在草原奔跑】、【飞快地跑】和【奔跑】三个条目互相对照,拆解为<在→草原上>和<会→奔跑>。
合并同质信息:这同样是复杂信息的颗粒化操作。例如,刀的原始反应条目【会伤到人】、【会伤害甚至杀死动物】和【会割痛手】合并成<是→危险的>。
添加提示符:使用一些常用词或短语作为义征类型的提示符,通常在英文中用斜体表示。中文建议用箭头标识,发出箭头的词为提示符,被箭头所指的词为义征中心词,从左到右解读。例如:knife<is dangerous>、直升机<有→螺旋桨>、<金属←制成>和<有→齿轮>。义征提示语既是义征本身的组成部分,又往往提示该义征的类型。
表决法修正:任何拆解或合并都带有主观性,并且相同义征可能会被赋予多种名称。为了能更准确地提取所需义征信息,降低信息失真度,并且尽可能使义征赋名标准化,对原始反应条目的转写要求尽量保持其原貌,即使是修改,也需要采用表决法。通常要求有三名专家或母语使用者参与,只有三人意见统一时,才对原始条目进行修改(Vinson&Vigliocco,2008;Montefinese et al., 2013)。
麦克雷等的数据集经过转写后获得9618个义征。他们进而设定,只有概念提名频次[13]至少为5人(≥5/30)的义征,才能纳入最终的义征数据集。这样的义征共有2963个。这个数据集经过多年增补后,所含名物概念数量最多达到549个(McRae et al., 1999;McRae&Cree,2002)。在2005年经修订后公开发表的义征库中,含有541个名物概念(McRae et al., 2005)。
其二,明确提出要进行义征分型(McRae et al., 1997,104-105页)。他们的分型方案由巴萨娄(L.W.Barsalou)提供,而后者当时尚未发表论文。在这个分型方案中,共有5类信息,分别是实体信息、功用信息、分类信息、概念所在的场景信息和相关认知信息。以牙刷为例,分别对应为:<有刷毛>、<用于刷牙>、<是日常用品>、<在卫生间>和<与牙膏一起用>。义征的质性分类方案在此后有许多修订和发展,特别是吴玲玲(L.L.Wu)和巴萨娄制订了最详细的基于知识类型的义征分类方案(下简称WB知识分类法)(Wu&Barsalou,2009)。
其三,从表征建模方法和分析指标方面推动了征间关联研究。
麦克雷等在论文中明确区分了表征独立观和表征联结观,并为两者分别构建了散征型表征(individual features representation)和联征型表征(correlated features representation)。在构建散征型表征时,麦克雷等首先为每个概念从义征库中筛选义征。190个概念共选出1242个义征。然后,建立190行、1242列的“概念-义征”矩阵,并且把第j个义征在第i个概念中的提名频次赋予第i行第j列。该矩阵的每一行都是一个由提名频次加权的义征向量,也就是概念的散征型表征。
在构建联征型表征时,麦克雷等首先为每个概念从义征库中筛选耦合义征。他们用义征在同一个概念中共同出现(义征的概念内共现性)为线索,采用了与马尔特和史密斯相似的统计学视角(Malt&Smith,1984),认为可以用相关性统计检验来探查征间关联。当一对义征显著相关时,就认定它们是耦合义征。由于仅出现在1~2个概念中的义征较多,它们占据了较大比例的共现信息,有增加虚假相关的风险,因此麦克雷等仅选出240个属概量至少为3的概念用于构建征偶向量。在一个征偶向量中,每个义征有190格数据,对应着190个概念。每个数据格中填入义征的概念提名频次。由此计算征偶所含义征的皮尔逊积差相关性(Pearson Product-Moment Correlation,以p<0.01为有显著性)。结果发现由耦合义征构成的征偶共1190个。由此建立“概念-征偶”矩阵,共有190行,1190列。矩阵格子取值有三种情况:如果第i个概念不持有第j个征偶中的任何一个义征,那么第i行第j列的格子赋值0;如果第i个概念同时持有第j个征偶中的两个义征,就把这两个义征的提名频次相加,赋予第i行第j列的格子;如果第i个概念只持有第j个征偶中的某一个义征,就把被持义征的提名频次取负值之后,赋值给第i行第j列的格子。该矩阵的每一行都是一个由上述赋值所加权的征偶向量,也就是概念的联征型表征。
麦克雷等发现,由于每个概念最多含有27个义征,因而其散征型表征非常稀疏,每个向量有一千两百多格取值都为0。另外,联征型表征也非常稀疏,导致在统计义征相关性时,只能用一方义征的出现提示另一方也会出现,但无法用一方义征的缺失预测另一方义征也缺失。这就不符合马尔特和史密斯(Malt&Smith,1984)最初提出的“全或无”的义征因果关联准则。为此,麦克雷等一方面从理论上推测,相对于无限丰富世界资源而言,人类大脑有限的信息处理能力使得人们往往不太会遍举事物缺失哪些特征。另一方面,他们利用基于“吸引子”[14]的神经网络建模和分析技术,把散征型表征和联征型表征的数据都输入模型中进行验证,发现即使输入的数据非常稀疏,网络模型也总能收敛到一个稳定的状态,从而提示数据的稀疏性并不影响词义的处理。
对上述两种表征进行分析,有助于阐明征间关联在语义研究中的重要性。例如,生物的耦合义征比例要显著高于非生物(McRae, De Sa,&Seidenberg,1997,106页)。为了证明征间关联对人脑处理词义有显著影响,麦克雷等还提供了行为学检测值(被试自我评估的数值),与基于上述表征的测度值(从数据库中计算出来的数值)进行比较,从而了解能否用征间关联来预测行为学表现。
按照信息处理的复杂程度,他们把行为学任务划分为高中低三个难度。高难度任务没有时间限制,但需要凭借背景知识和已有经验进行较为复杂的判断和推理。例如,判断冒着白色雾气的杯子里装的是冰水还是开水。中等难度任务也没有时间限制,但判断和推理难度较低。例如一些定量任务,包括两个概念的相似度(similarity rating,例如猫和狗的相似度)、样例的范畴典型度(concept typicality rating,例如鸽子对于鸟类的典型度,简称概念典型度)或义征的概念典型度(feature typicality rating,例如<有翅膀>对于鸟的典型度,简称义征典型度)。低难度任务有时间限制,需要受试者快速做出响应。例如,命名任务或定性判断任务,包括图-词匹配判断、语义决策(semantic decision,例如判断狗是不是动物)、概念-义征匹配判断(feature verification,例如判断<有翅膀>是否符合鸟的特点)等任务。麦克雷等认为,人脑对义征的处理可能主要反映在低难度任务中,因为此类任务的干扰因素较少(McRae, De Sa,&Seidenberg,1997,100页)。他们在实验方案中既设置了中等难度的定量任务,包括概念相似度和义征典型度的评估,也设置了低难度的定性任务,包括语义启动+决策任务(例如,先呈现猫,后呈现狗,要求判断后呈现的概念是不是动物)和概念-义征匹配判断任务。以下是麦克雷等使用的指标。
义征提名频次(production frequency):为某概念提名靶义征的人数。
义征秩次(feature rank):义征按提名频次排序所获秩次。
交联度(intercorrelational strength):对持有某义征的概念而言,该义征与这个概念所持的其他义征的征间关联强度。
义征含符数:义征名所含字符数。
义征匹配潜伏期(feature verification latency):来自概念-义征匹配判断任务,即在有启动词(持有该义征的概念)先行的情况下,给出靶义征,要求判断该义征是否属于这个概念。从出现靶义征开始,到受试者做出判断,中间所需要经历的时间。
义征典型度(feature typicality rating):来自义征典型度评估任务。分为1-9级。要求受试者判断一个概念在多大程度上会拥有靶义征。例如,鸟在多大程度上<有翅膀>。
义征上位范畴典型度(feature superordinate typicality):就某概念的一个义征而言,在这个概念的上位范畴内,含有这个义征的概念数量。
概念熟悉度(concept familiarity):来自概念熟悉度评估任务,即提供刺激概念,要求受试者评估他们在多大程度上熟悉该概念。通常分为1-7级(McRae, De Sa,&Seidenberg,1997),也可以是1-4级(Garrard et al., 2001)、1-9级(McRae et al., 2005)、1-3级(Lenci et al., 2013)或1-10级(Montefinese et al., 2013)。
概念的范畴典型度(concept typicality,概念典型度):来自概念典型度评估任务,即给予样例和范畴,要求受试者的评估样例的范畴典型度。通常分为1-7级(Rosch&Mervis,1975),也可以是1-20级(De Deyne et al., 2008)或1-10级(Montefinese et al., 2013)。
●概念持征量(feature per concept):每个概念所持义征的数量,是散征型表征中的每个概念所含义征数。
概念反应条目总数(total response per concept):来自义征提名任务。受试者为某概念产生的条目数,称为这个概念的反应条目总数。
对这些指标的考察,首先要辨别它们是概念指标,还是义征指标。其次,根据指标来源分成两类。一类是行为学指标,即由受试者执行某种任务而直接获取的观测值。概念-义征的提名关系以及提名频次,是义征库的最基本数据。另一类是衍生指标,即利用这些基本数据计算而得的间接度量指标。最后,可以辨析各指标间的相互关系。麦克雷等为了辨明义征对不同难度的行为学任务的影响,利用上述义征匹配潜伏期(低难度快速反应任务)和义征典型度(中等难度慢速任务)作为应变量,以其他九项指标作为自变量,进行逐步回归分析(McRae, De Sa,&Seidenberg,1997)。他们发现,交联度能够有效预测义征匹配潜伏期,但不能预测义征典型度,提示交联度与语义的即时处理有更密切的关系。另外,他们还发现交联度的解释力最强,即使把其他自变量都纳入其中,交联度仍能预测的残差仍占最大比例。
在麦克雷等率先确立征间关联在词义处理中的重要性之后(McRae, De Sa,&Seidenberg,1997),该研究进路不断发展(McRae&Cree,2002)。尤其是泰勒(K.I.Taylor)等指出交联度的缺陷,并提出了改进方法(Taylor et al., 2008)。
加勒德(P.Garrard)等报道的义征库(Garrard et al., 2001)可能是第一个公开发表详细原始数据的义征库。与之前使用的自由式义征提名法(McRae, De Sa,&Seidenberg,1997)不同的是,加勒德等使用了完形填空式义征提名法。向20名受试者提供64个具体概念,并且带有句法主干,让受试者填入义征。所选概念分属8个范畴,每个范畴含8个样例:英国本土动物和非本土动物、鸟类、果蔬(6个水果和2个蔬菜)、小物件、大物件、工具和交通工具。提名时采用三种句干。部件型义征采用“有……”。功用型义征统一采用“能……”,包括能力、活动和用途等。描述型义征采用“是……”,包括感知、分类或百科知识等多种类型。这实际上是用句干来把不同类型的义征进行更高水平的范畴划分,说明加勒德等已经明确认识到义征类型也有范畴之分。在实施义征提名任务的同时,要求受试者填写刺激概念所属范畴,以检验样例的范畴一致性。最后果蔬仅取水果,从而有62个样例(30个生物,32个非生物)纳入后续分析[15]。经过标准化转写后,共找到869个义征,构成的概念-义征关系共有2969对,平均每个义征搭配3~4次。在标准化转写后,加勒德等又把义征分为四种类型。①感知型。例如,大象<鼻子很长>。②功能型:主要包括动作、行为或用法。例如,猫<会捉老鼠>。③百科型:主要是联想关系。例如,面包<在厨房>。④范畴型:是指上位范畴关系。例如,猫头鹰<是鸟类>。对义征分析来说,加勒德等(Garrard et al., 2001)主要有四个贡献。
第一,提出了范畴可以从其样例的义征共享结构中涌现出来。加勒德等用概念聚类树图的形式考查了这种范畴结构,发现仅凭义征信息就可以聚类形成各个范畴,并且水果、动物和非生物这三个领域是最早形成的聚类。
第二,推动了义征的两个量化指标的研究:优势度(dominance)和独有度(distinctiveness)。尤其是后者,为义征量化分析和分层研究提供了基础。义征优势度是指在对某概念进行义征提名的所有受试者中,为这个概念提名该义征的人占总人数的比例。它的频数分布可以为义征筛检提供依据。从加勒德等报道的优势度频数分布图来看,其呈右侧为长尾的偏态分布。在总共2969对概念-义征关系中,共有869个义征,优势度在0.1以下的有251个,都位于右侧长尾区。删除这些义征后,余下618个义征共构成1656对概念-义征关系纳入后续分析。义征独有度则是指该义征在多大程度上能够使持有它的概念得以与其他概念相区别。独有度高的义征相当于语义语法学所提到的区别性义征。<咩咩叫>有助于在羊与猪、牛或老鼠间做出区别,从而是羊的独有义征(distinguishing feature)。这个概念可以上溯到德福林(J.T.Devlin)等(Devlin et al., 1998)对脑损伤所致范畴特异性语义损伤的研究。按照罗希等(Rosch&Mervis,1975;Rosch et al., 1976)和沃林顿等(Warrington&Shallice,1984)的思路,德福林等也认为义征有差异。义征受损程度的不一致导致范畴特异性语义损伤。但是他们没有诉诸义征分型,而是关注义征最基本的概念区分功能,认为需要衡量义征所含信息度(informativeness),而独有度就是一项信息度指标。虽然两个报道的独有度取值范围都为0-1,但计算方法不同。德福林等用整个义征库中持有该义征的概念数的倒数表示该义征的独有度(简称全局独有度)(Devlin et al., 1998,82页)。加勒德等采取了相反的独有度量化策略。他们把独有度的计算范围缩小到范畴内部(简称范畴独有度),并且用持征概念占范畴所含概念总数的比例来表示范畴独有度(Garrard et al., 2001,136页)。因此,德福林全局独有度和加勒德范畴独有度这两个指标虽然取值范围相同,意义却相反。取值越接近1,德福林全局独有度表示义征的独有程度越高,而加勒德范畴独有度则表示义征的独有程度越低。虽然范畴独有度更符合义场建构原则,但是其可操作性仅限于小样本义征库。大型义征库存在样例兼属多个范畴的问题,因而使用全局独有度(McRae&Cree,2002;McRae et al., 2005;Kremer&Baroni,2011;Lenci et al., 2013)。
第三,加勒德等进一步推动了对义征质性分类的研究,尤其深入探讨了百科型义征对义征分析结果的影响。法拉赫和麦克莱兰(Farah&McClelland,1991)报道的基于词典释义义征库仅仅甄别了感知和功用这两种类型的义征。卡拉马扎(A.Caramazza)和谢尔顿(J.Shelton)(Caramazza&Shelton,1998)则提出,法拉赫和麦克莱兰的义征分型方法不足以证实非生物拥有更多功能型义征的假说。因为人们往往说不出生物能用来干什么,但却很容易说出非生物(尤其是工具)的功用,从而有可能为非生物提名更多的功能型义征。卡拉马扎和谢尔顿主张分出两个征型:感知型和非感知型。后者包括了原来的功用型义征,同时又添加百科型义征。针对这个问题,加勒德等用自己的数据集来考察百科型义征对语义范畴结构的影响(Garrard et al., 2001)。在考察义征分型(3个征型:感知、功能和百科)和分层(2个征层:范畴独有度≤0.5为独有层义征、范畴独有度>0.5为共有层义征),以及概念分域(两个概念域:生物和非生物)这三种因素后,他们发现,范畴独有度分层对征型的概念域分布有明显影响。对于共有层义征来说,无论哪种征型,生物所持量都显著多于非生物。对于独有层义征来说,非生物持有明显较多的功能型义征,而百科型义征则明显偏少,感知型义征则未见明显差异(Garrard et al., 2001)。一方面,这提示独有度是考察语义范畴特异性的重要量化指标,同时也是重要的义征分层因素。另一方面还提示,无论在哪个征层,生物都有显著较多的百科型义征。加勒德等还发现,如果不把百科型义征单独列入考察,那么无论是把它剔除在外,还是用非感知型来涵盖它,都会对数据分析结果造成显著影响,甚至使结论完全相反。因此,该研究虽然没有阐明百科型义征对语义范畴结构的影响,但是它确立了百科型义征在义征库数据转写和深度分析中的重要性。
第四,加勒德等深化了征间关联研究,指出交联度的分布受到义征独有度分层的影响。他们发现,以往所认为的生物征间关联较多,主要是由于生物持有的共有层义征较多,而共有层义征又恰恰拥有较多征间关联。因此,当使用交联度来考察语义范畴结构时,需要把义征独有度作为影响因素。
至此,义征的两个重要方面变得更加清晰:交互关联性和概念提示性。如果给定某个概念及其所含某义征,在研究人脑对该概念的语义处理时,可以从这两个方面来考察这个义征所提供的信息(McRae&Cree,2002;Taylor et al., 2008)。如果从理论意义上来定义这两个术语,前者是指该义征在多大程度上与这个概念所持的其他义征相关,后者是指该义征在多大程度上提供了有关这个概念的信息。这两个角度考察的都是“概念←义征”的关系,即义征对概念的测度。它们都有相应的量化指标和操作化定义。
●义征的交互关联性:对应于三个量化分析指标:交联度、平均交联度和关联度(correlational strength)。以上述给定的概念与义征为例。如果把该义征与这个概念所持其他义征进行配对,放到整个数据库中构建征偶向量,进行征偶内义征双方的相关性统计检验,就能找出与该义征耦合的所有其他义征。其中,该义征与所耦合的另一义征之间的皮尔逊相关系数(ρ)如果取平方,就等于两义征之间的线性拟合优度系数(ρ2=R2)。该值就是两义征间的共享方差比例(又称共享变异比例,proportion of shared variance),也就是两义征向量之间线性拟合方程能解释的变异性占总变异性的比例。或者说,当已知其中一方取值时,要预测另一方取值时,能多大程度上降低预测所带有的均方误差(Mean Squared Error, MSE)。例如,当相关系数大于0.234时,其平方约为0.055,提示如果利用该相关关系进行预测,大致可以降低5.5%的均方误差,同时也意味着双方共享超过5.5%的变异。当从一个概念中找出所有与给定义征耦合的其他义征时,把该义征与其他义征的共享变异比例的值相加,就得到了该义征在这个概念中的交联度(McRae, De Sa,&Seidenberg,1997;McRae&Cree,2002;McRae et al., 2005;Lenci et al., 2013;Montefinese et al., 2013)。
从交联度的计算方法可知,其关键在于如何找到与给定义征耦合的其他义征。一些早期文献(Malt&Smith,1984;McRae, De Sa,&Seidenberg,1997)要求以相关性检验的p值小于0.01为显著相关。但是,经统计检验的耦合义征数和征偶数,在整个数据库中所占比例都很小。在麦克雷等的报道中(McRae, De Sa,&Seidenberg,1997),生物中仅占11%,人造物中仅占6%。加勒德等(Garrard et al., 2001)发现,即使把p值调高到0.05,耦合义征所组成的征偶数仍不到10%。此后一些报道以共享变异比例来划分显著性界限。麦克雷等最终为英语名物义征库指定的共享变异比例最小为6.5%(相关系数大于0.255为显著相关)(McRae et al., 2005)。克莱默等(G.Kremer)的德语与意大利语对照义征库也使用该界值(Kremer&Baroni,2011,私人通信获知该数据)。兰奇(A.Lenci)等(Lenci et al., 2013)和蒙特菲尼斯(M.Montefinese)等(Montefinese et al., 2013)则在各自的意大利语义征库中指定该比例最小为5.5%(相关系数大于0.234)。
前文已经介绍过,加勒德等发现如果用独有度进行义征分层,则不同层义征的数量在各范畴中的分布是不同的(Garrard et al., 2001)。此后,泰勒等(Taylor et al., 2008)也指出,概念的持征量和耦合征偶量是除征间关联强度以外,影响语义处理的独立因素。交联度虽然能衡量义征共现强度,但是它受概念持征量影响。概念持征量越大,与给定的义征耦合的其他义征的数量(简称配征量)就越多,耦合征偶量也随之增加,从而造成交联度取值增大。这有可能影响到对不同范畴的征间关联的比较。例如,之所以生物交联度高于非生物,就是由于前者持征量(尤其是共有层义征的数量)高于后者(Garrard et al., 2001;Taylor et al., 2008)。针对这个问题,已经发展出两种改进方法。一种是泰勒等提出的关联度。对于给定概念和义征,当该义征与这个概念所持的其他义征显著相关时,把相关系数取和,然后再除以该义征的配征量,最终所得的比值就是该义征在这个概念内的关联度(Taylor et al., 2008)。另一种是计算平均交联度。把交联度除以配征量,就可以得到给定义征在指定概念中的平均交联度(Montefinese et al., 2013)。交联度不是百分比,而平均交联度和关联度都是百分比。
●义征的概念提示性:对于许多样例都持有的一些大众型义征而言,很难由这种义征引导出某个特定样例。也就是说,大众型义征的概念提示性较低。进一步可以得到两个推论:大众型义征具有范畴提示性,而概念提示性较高的义征起着区别样例的作用。例如,<有轮子>提示交通工具范畴,但无法区别自行车、摩托车、轿车、三轮车和火车等样例。因此,义征的概念提示性和样例辨别性是一体的两面,分别对应两个量化分析指标:线索度(cue validity)和独有度。相对于独有度的计算方法(持征样例数的倒数)而言,线索度的计算要更复杂一些。它是指在持征样例中,该义征的提名频次除以该义征在整个义征库中的总提名频次。如果独有度可分为全局独有度和范畴独有度,那么线索度也可以做出类似区分,而按照上述方法计算的线索度,应当是全局线索度。如果除以的是该义征在某范畴中的总提名频次,则是范畴线索度。在目前的大型义征库中,同样由于样例的多范畴归属问题,而默认采用全局线索度。
在加勒德等的报道(Garrard et al., 2001)之后,麦克雷和克里也发表论文分析义征独有度对概念结构和概念处理的影响(McRae&Cree,2002),并且建立语义处理模型,将义征数据输入计算机模拟语义处理过程,证明语义网络中首先得到激活的是高独有度义征(Cree, McNorgan,&McRae,2006)。泰勒等(Taylor et al., 2008)肯定了克里和麦克雷对义征独有度的重视,但是通过分析自建义征库(未公开),并且与后者所用义征库进行比较,认为后者没有充分把握独有度和交联度之间的关系。由此,泰勒等提出一个假设:义征的交互关联性和概念提示性对应着语义在线处理的不同阶段,前者与早期过程有关,而后者则与后期处理有关。用于证实该假设的后续实验结果尚未发表。
近十余年来,涌现出多种义征库。其采集和制备的时间往往很长,有些可以上溯到20世纪90年代以前。它们所提供的指标却已经体现了近期的发展成果。以下将梳理几个较大的公开义征库的基本情况。由于一些数据库在发展过程中前后发表多篇论文,因此将按照语种和研究团队进行陈述。每个数据库都有两个名称。一个较长,是根据该义征库代表性出版物的引文年份、语种和概念类别命名。另一个较短,是根据代表性出版物的第一作者的姓氏命名。
1.英语
目前主要有两个英语义征库:麦克雷和克里团队的名物义征库(McRae et al., 2005),文森(D.P.Vinson)和维廖科(G.Vigliocco)团队的名物事件混合义征库(Vinson&Vigliocco,2002;Vinson&Vigliocco,2008)。
2005版英语名物义征库(McRae义征库)
在1997年报道最初的义征数据集之后,麦克雷等在2002年公开了建库所用的37个范畴,共549个样例。但没有提供详细的“概念-义征”数据。到2005年,麦克雷、克里、赛登博格和麦克诺艮(C.McNorgan)发布了大型英语名物义征数据库(McRae et al., 2005)。这是国际上第一个公开发表的大型义征库,包括了生物和非生物两个概念域共541个样例。由于有样例兼属多个范畴的问题存在,并且该义征库并不专用于研究概念范畴化,因而没有提供样例的范畴划分。共有725名受试者参与了该义征库的数据采集。每个样例都提供给30名受试者进行提名。
在量化指标上,义征全局独有度、全局线索度和交联度都发布于所附数据包中。在质性分类上,采用了克里和麦克雷提出的脑区分类法(下简称CM脑区分类法)(Cree&McRae,2003)和吴玲玲和巴萨娄提出的WB知识分类法(Wu&Barsalou,2009)。这两个分类方法将在方法论章节详述。
2008版英语名物事件混合义征库(Vinson义征库)
麦克雷和克里团队分析名物概念,而文森和维廖科团队则分析事件概念(Vinson&Vigliocco,2002;Vinson&Vigliocco,2008)。事件本质上是时间序列,它可以是某种动作,也可以是某种动态过程。在词汇形式上,主要是动词型概念,也可以是名词型概念。罗希开创的概念范畴化研究,适于有实体对象的名物概念,但难以应用于事件概念。动作很难划分范畴。即使分出范畴,也很难为之赋名。在基于义征重叠关系的语义空间中,名物类词汇是范畴聚类式分布,动词则呈现语义距离的梯度渐变式分布,而不出现范畴聚类(Vinson&Vigliocco,2002)。从范畴特异性语义损伤研究的都是名物概念来看(俞建梁、陈先梅,2013),也可以印证这种差异。文森和维廖科对事件的研究并非针对概念范畴化或范畴特异性语义损伤,而是围绕“词汇-语义”“词汇-语法”和“语义-语法”这三方关系展开。研究的出发点是他们提出的语义还原论(semantic reductionism)和义场特异性损伤(semantic field specific deficient)。
语义还原论认为,词汇语义是语法词类的基础和底层构造(Vinson&Vigliocco,2002,318页)。文森和维廖科提出,如果接受彻底的语义还原论,那么语法词类应当是基于义征重叠关系的词汇聚类,义征分析也就有助于解决词类划分问题。
义场特异性损伤是指,在名词或动词等词类中,某一词类损伤严重,而另一方则相对保留。之所以称为义场特异性损伤,是因为这种现象无法用概念范畴的理论框架来解释。如果接受语义还原论,就意味着语法词类是从词汇语义中涌现出来的,也就意味着临床上所出现的语法词类的特异性受损,就是义场受损的表现。文森和维廖科指出,表示事件概念的词汇可以划分语法类别,包括动词和动作名词(Vinson&Vigliocco,2002)。例如,“吼一声”和“一声吼”中的“吼”,前者为动词,后者为动作名词。但是,两者在语义层面上的区别程度不如语法层面上的词类区别来得明显。通过对罗希范畴化理论的反思和对事件词的考察,文森和维廖科提出,适于描述事件概念的应当是语义场理论,而不是概念范畴化理论(Vinson&Vigliocco,2002;Vigliocco et al., 2004,438-439页)。与之相应,他们考察的病理现象也不是范畴特异性语义损伤,而是义场特异性损伤。他们用义征提名法采集名物概念和事件概念的义征数据,以之建立名物和事件的词汇语义表征。通过对不同类型的义征进行模拟损伤,从而建立义场特异性损伤模型,并且把模型在攻击下的表现与正常模型以及临床现象进行比较,试图从特定类型义征受损的角度来解释临床上义场特异性损伤的机制(Vinson&Vigliocco,2002)。
文森和维廖科的义征库最初报道于2002年(Vinson&Vigliocco,2002),但原始数据到2008年才公开发布(Vinson&Vigliocco,2008)。该义征库共有456词,含动词(216个)、动作名词(71个)和名物词(169个)。前两者是事件词,又可分为15个义场[16],包括(括号中为举例):躯体动作(打嗝)、躯体感觉(品尝)、位置改变(拖拽)、状态改变(扭曲)、噪音(尖叫)、交流(邀请)、建立(绘画)、破坏(谋杀)、接触(敲击)、交换(售卖)、烹饪(油炸)、光热发散(闪烁)、运动方向(上升)、运动方式(弹跳)和工具动作(铲除)。名物词则分为7个义场,分别是动物、果蔬、小工具、交通工具、身体部位、服装和杂类人造物。这些词分到14份表单中,每份表单含30~40词不等。在每份表单中,各词随机排列。用the和to来表示名词和动词,并且避免同一词形的动词和动作名词出现在同一表单内。共有280名受试者参与义征提名,分成14组,每组20人。因此,每份表单都有20名受试者。在进行义征提名时,要求受试者分条罗列刺激词的义征,同时强调要避免词汇联想和词典式释义。在对原始反应条目进行标准化转写后,删除总提名频次小于9次的义征[17],最终得到1029个义征。由此,构建一个456×1029格的概念-义征矩阵,每格以列义征在行概念中的提名频次赋值。
对这些义征的分型,文森和维廖科没有采用CM脑区分类法,也没有采用WB知识分类法,而是采用了自定的感知模块分类法(简称VV感知模块分类法)。由两名英语为母语者对义征进行分型,争议之处则由第三人参与讨论决定。首先把义征分为感知型(与感觉输入有关,而与认知处理或知识储备无关,身体状态和本体觉属于此类)与非感知型。前者细分为视觉型和其他感知型。后者细分为功用型(物品的用途或动作的目的)、运动型(物品被如何使用或移动,以及动作的运动特征)和其他非感知型。值得注意的是,一个义征有可能同时属于多种类型,从而组合形成更多亚型。例如,<平衡>是功能+运动组合亚型。据笔者统计,该义征库在2008年发表时共有16种亚型。但是,在2002年的论文中,文森和维廖科只是一对一地进行义征分型,而且只有视觉型(57个)、其他感知型(71个)和非感知型(901个)三种类型(Vinson&Vigliocco,2002)。
文森和维廖科的义征库研究有三个成果值得注意。第一,提出语义还原论,并提供了实证研究思路。从该理论出发,可以推测动词和动作名词应该在语义空间中分别聚类,从而体现出语法词类受词汇语义的支配。也就是说,动作名词“眨眼”与动作名词“吼”的语义距离,要比与动词“吼”的距离近。反之,动词“眨眼”与动词“吼”的语义距离,要比与动作名词“吼”的距离近。基于义征的语义表征分析却没有发现这种现象。动词和名物词可以发生基于词汇语义的分化,但动词和动作名词却没有分化,而且动词内部义场也未发生分化(Vinson&Vigliocco,2002)。但是,这只是在部分结果上未能支持语义还原论,而没有彻底否定其底层假设的合理性。在笔者看来,调查法所采集的经验性义征库,仅仅是实验条件下的独立概念处理结果,涵盖的只是人们用简短条目所能说出的、心中认为最重要的义征。在语言使用状态下的义征,可能被这种采集方式低估。例如,“殴打”这个概念,义征提名可能会围绕其行为场景中独立的具体要素,如<用拳头>,而忽略其要素的抽象特征<施事对受事的行为>。如果把语言专家整理的句法-语义接口义征纳入研究,并且采用义征识认测试而不是提名任务,则有可能会进一步提供证据支持语义还原论。
第二个成果,是建立了义场特异性损伤模型(Vinson&Vigliocco,2002),并拓展了概念领域的研究范围(Vinson et al., 2003)。对义征损伤进行模拟,就是把概念-义征矩阵中某型义征相应的格子取值为0。然后根据伤后矩阵来构建伤后语义空间,比较各类词在损伤前后的语义距离。结果发现,视觉型义征受损对名物词的影响远大于事件词,事件词中的动词和动作名词受损程度无明显差异。在名物词内部,各义场的受损程度也不等。动物受损最严重,果蔬次之,而其他名物义场则未见明显受损。这支持动作和人造物的语义处理都不依赖视觉义征这一理论推测。如果把损伤范围扩展到所有感知型义征,则包括动作名词和名物词在内的所有名词的受损程度都明显高于动词。名物词内部的义场也同样产生分化。果蔬受损最重。如果反过来损伤所有非感知型义征,则动词要比名物词显著受损。动作名词受损程度介于两者之间,且与两者均无差异。名物词内部义场也还是会有分化,但情况正好与感知型义征受损时相反。果蔬受损最轻,而衣物、身体部位、小工具和交通工具受损最重。这些结果证明,义征受损将对义场划分产生显著影响,并且进一步支持征型对义场划分的重要性。但是,他们的研究仅报道了征型受损对名物义场的影响,而没有探讨事件义场的受损情况,为今后研究留下了空间。另外,文森和维廖科等还遵循加勒德等(Garrard et al., 2001)的分析模式,探讨了征间关联与义场特异性损伤的关系,把征型和征间关联的研究,从名物概念内的生物和非生物拓展到名物和动作。他们发现,名物的加权持征量(所持义征的提名频次之和)和平均相关系数都明显高于动作。但是,共有层义征的数量在名物和动作之间并无差异。他们还证实,名物的感知型义征较多,而动作的运动型义征较多。这提示,名物比动作有着更稳固的义征和更紧密的征间关联,而且名物和动作这两个领域内的征型分布不同。同时也提示,征型和征间关联的影响贯穿从样例、子场到领域的所有语义表征层面(Vinson et al., 2003)。
第三个成果,是提出了征基一元语义空间(featural and unitary semantic space)假说(Vigliocc et al., 2004)。该假说综合了前两个成果,在对概念词汇化的跨语言差异进行考察的基础上,抓住概念-词汇的非一对一性,把语言系统视为概念、词汇和语音三层,并且提出三个主张。①概念层的义征构成词汇层的语义表征(Vigliocco et al., 2004,433-434页)。这种构成受征型和征间关联的影响,并且具有一定的模态性(Vinson et al., 2003)。②建立在义征基础上的词汇语义表征(征基型语义表征),可以提供词汇与语音或句法间的接口(Vigliocco et al., 2004,433-434页)。③名物和动作可以采取相同的原则和方法,在义征基础上构建统一的语义空间(Vinson et al., 2003;Vigliocco et al., 2004,438-442页)。文森和维廖科对该假说的验证建立在“自组织映射”(self-organizing mapping)的神经网络建模技术上(Vinson&Vigliocco,2002;Vinson et al., 2003;Vigliocco et al., 2004)。该技术不需要事先计算征间关联,而是凭借输入的义征向量自动为词汇寻找最优的语义空间排布。这种优化的语义空间排布就是征基型语义表征(即征基型一元语义空间),据此可以计算词汇之间的语义距离。在文森和维廖科的系列研究中,这种语义表征是各种常模比较或毁损模拟的基础工具。为了证明征基型一元语义空间模型的优势,他们还采用图片命名、图词干扰和语义启动这三种行为学任务,获得错误率和反应时间等多种测度作为效应指标,对不同模型进行比较。经过比较征基型一元语义空间的欧氏语义距离、潜在语义分析(Latent Semantic Analysis, LSA)的语义相似度和WordNet词网模型的网络语义距离这三种模型指标,证实征基型一元语义空间模型更具优势(Vigliocco et al., 2004)。
文森和维廖科研究的价值并不在于其自组织映射数据分析模型,而在于指导模型构建的假说,即提供了以语义特征分析技术和语义场理论为基础的语义组织理论。该理论突破了概念范畴理论在词类问题上的局限性,并且在义征数据集的基础上获得了模型建构的可操作性。
2.荷兰语
目前的荷兰语义征库主要由比利时鲁汶大学的德迪因(S.De Deyne)、拉兹(W.Ruts)和斯托姆斯(G.Storms)等组成的团队建立(Ruts et al., 2004;De Deyne et al., 2008)。语料取自弗兰芒语(Flemish)。其与荷兰语的关系类似于英语的英式与美式之分。
2004版荷兰语义征库(Ruts义征库)
该义征库包括13个范畴338个样例,共计351个词(Ruts et al., 2004)。动物(爬行类、两栖类、哺乳类、鸟类、鱼类和昆虫类,共131个样例)和人造物(乐器、小工具和交通工具,共87个样例)是常规类型。水果和蔬菜被列入人造-自然兼类(共60个样例)领域,因为它们既可以自然生长,又可以人工栽培。另外还包括了活动(体育锻炼和职业工种,共60个样例)。由69名受试者对13个范畴词进行义征提名。每名受试者分配到3个范畴词,要求他们为每个范畴词提名至少10个义征。每个范畴词最终有10-30名受试者参与提名。由640名受试者对338个样例进行义征提名。每名受试者分配到1-10个样例词,同样要求他们为每个样例词至少提名10个义征。每个样例词最终有20个受试者参与提名。针对338个样例词,共采集到67600个义征。义征提名秩次为1-11级。其中1-10级是提名顺序,排序在11及以上的义征均编码为第11级。在义征标准化过程中,即使某义征明显与样例的语义不符(例如蜥蜴<是哺乳动物>),也仍然保留在义征库中,以保留数据的自然性。所有义征均翻译为英语,以供参照比较。为使数据库有足够的参照变量,而不仅包括义征提名频次,拉兹等在发布的义征库中提供了多个外部变量,都是样例的测度指标。
①生成频次:为范畴提出(说或写)尽可能多的样例,得到提出该样例的人数。
②对数词频:从词频数据库中查找样例的词频,取自然对数。
③概念典型度:即范畴典型度,分为1-20级。
④概念相似度:提供同范畴内一对样例,要求受试者评估两者相似性,分为1-20级。
⑤习得年龄:由受试者估计自己几岁习得该单词。
⑥联想反应词:要求受试者针对样例生成三个联想词,按照联想顺序记录并整理每个反应词的联想人数。
2008版荷兰语义征库(Deyne义征库)
该义征库对范畴做了修改,在人造物中增加了衣物(29个样例)、厨房用品(33个样例)和武器(20个样例),把所有两栖类都归入爬行类,从而形成15个范畴。该义征库同样没有完全解决样例的兼范畴问题。例如,刀同时属于厨房用品和小工具,而斧和绳都同时属于武器和小工具。2008版义征库提供的外部变量中,同样包括生成频次、对数词频、概念典型度、概念相似度和习得年龄。另外,还提供了多个其他变量。
①范畴的样例联想强度:以样例为刺激词,联想得到某范畴词的人数。
②样例的范畴联想强度:以范畴词为刺激词,联想得到某样例词的人数。
③样例的范畴代表度:简称代表度,即样例能在多大程度上代表范畴,分为1-20级。
④样例的代表度秩次:为解决代表度同级问题,可强制排列秩次,即出示范畴及其样例列表,要求受试者把样例按照其对范畴的代表程度进行排序。
⑤样例的熟悉度:要求受试者估计自己在多大程度上见过、听过或使用过该样例,分为1-5级。
⑥样例的心像唤起度:样例能唤起受试者用心智图像来表征该概念的程度,分为1-5级。
拉兹和德迪因等希望为认知和语言研究提供一个公开发表的含行为学数据的义征库。所有行为学任务检测结果都经过内在一致性检验,指标是斯皮尔曼-布朗折半信度(Spearman-Brown split-half correlation)。由于该义征库提供了详细的样例测度,因而有利于为其他研究提供样例选择指导。
3.意大利语和德语
目前主要有三个意大利语义征库:克莱默(G.Kremer)和巴洛尼(M.Baroni)建立的2011版德语和意大利语双语对照义征库(Kremer&Baroni,2011)、兰奇和巴洛尼等建立的2013版盲人和常人意大利语双样本对照义征库(Lenci et al., 2013)、蒙特菲尼斯(M.Montefinese)和安布罗西尼(E.Ambrosini)等建立的2013版意大利语义征库(Montefinese et al., 2013)。
2011版德意对照义征库(Kremer义征库)
该义征库包含共50个具体概念,分为10个范畴(鸟类、身体部位、建筑物、服装、水果、家具、小物品、哺乳动物、蔬菜、交通工具),每个范畴含5个样例。整个义征库的采集、标准化和分析均参照麦克雷等的名物义征库(McRae et al., 2005),并且所有概念和义征都翻译成英语,以供跨语言比较。选择样例时,要求为单义词,且词义明晰,词长无明显差异。受试者均为高中生,年龄在15岁到19岁之间。共有73名德语学生和69名意大利语学生参与实验。50个概念随机分为2组,每组25个概念。每个学生对其中一组概念进行义征提名。要求学生以每行一条的形式写下义征,每个概念至少写4行。值得注意的是,克莱默和巴洛尼的义征提名方案对时间有要求,每个概念仅给1分钟时间完成义征提名。这是一个经验性的时间设定,它的主要作用是避免因任务完成时间不同,而导致义征数量出现明显差异。义征标准化和分型由两位作者自行完成。经过标准化后,该义征库共含2513条德语义征(共使用10010次)和1243条意大利义征(共使用8520次)。在提名频次至少为10人的义征中,共有117条是双语共享义征。
克莱默和巴洛尼进行义征分型时,依据的是巴萨娄的2009版WB知识分类法(Wu&Barsalou,2009)。此外,他们还添加了2种新征型:材质(material)、角色关系(role relation)。材质是指构成物品的材料,它是实体特征的子类,需要与内部构件鉴别。例如,钟表<金属←制成>是材质,而<有→齿轮>是内部构件。角色关系,是情境特征的子类,是指情境参与者所扮演的角色之间的关系。例如,狗<是→宠物>和<是→人类的朋友>就是角色关系。由于WB知识分类法的系统特征这一征型缺乏清晰界定,克莱默和巴洛尼代之以情节特征(episodic property),表示不能直接感知,需要对感觉信息进行内省加工后才能得到的特征。例如,牛<是→强壮的>就是情节特征。该分类法简称KB-WB知识分类法,将在义征质性分类方案一节详述。
与此前各类义征库相比,2011版德意对照义征库在义征质性分类标注中增加了评定者间信度检验。他们从每种语言中随机选取100条标准化义征,另请一位以该语言为母语的人标注征型供验证评定者间信度。然后把作者自标征型与验证征型,采用科恩氏卡帕系数(Cohen’s kappa)进行比较。该信度指标专用于比较分类变量的评定者间一致性(interannotator agreement)。结果发现德语和意大利语都有较高评定者间信度,从而使两个语种拥有较可靠的征型标注供进一步比较。另外,该报道还首次使用了马赛克图(一种易于展示和比较多因素多水平变量的图表)进行数据可视化。这可能成为今后此类数据的基本展示方式。
2013版意语盲明对照义征库(Lenci义征库)
这是国际上第一个失明者义征库,并且提供了常人对照(Lenci et al., 2013)。建立该库的目的是为了探索知觉与语言之间的关系。兰奇和巴洛尼通过文献回顾指出由于先天失明者缺乏视觉信息输入,从语义处理的感觉-运动理论来说,会推测认为其语义组织与常人不同。但是,无论是语言学,还是神经科学,都有较为有力的证据表明,先天失明者会借助其他非视觉感知的输入和纯语言信息的处理,习得常人需要靠视知觉才能获取的语义知识,并且在语言运用上没有明显异于常人。同时,也还有一些证据表明,如果仅靠习得,而非感知获取语义知识,失明者的概念结构及其使用与常人还是有一定差异。例如,失明者和常人虽然对水果有着相似的语义知识,但失明者不像常人那样用颜色对水果进行分类(Connolly, Gleitman,&Thompson-Schill,2007)。由于义征库可以提供不同知觉模块的义征分型和解析,因此有利于探讨上述理论与实际的差异,解释实证研究的矛盾。
与此前的其他义征库相比,意语盲明对照义征库有三个明显的特点。首先,它的刺激词用口语呈现,受试者用口语回答,此前的义征库都是书面呈现刺激词,由受试者书写回答。相比之下,口语回答更符合语言使用状态。其次,它选取的刺激概念分为动词和名词,而且分别都有具体和抽象两种。这有利于对概念结构的各个领域和层面进行完整评估。最后,受试者要比前人研究年龄更大。失明组年龄平均47.2±16.5岁。健康组年龄平均45.1±16.8岁。其他研究通常招募在校学生作受试者,而该义征库的先天失明患者多数在40岁以上。这是因为医疗进步导致先天失明患儿出生率降低所致。受试者共48人,其中先天失明者22名、健康人26名。两组男女比例、利手、年龄和概念熟悉度(分为1-3级。1级为对刺激词很少或没有日常体验,3级为很多体验)都匹配。供使用刺激词70个,其中名词50个,动词20个。名词含40个具体名词和10个抽象名词。在名词刺激词中,特意纳入了某些带有强烈视觉信息的单词。例如,斑马有斑纹,香蕉有颜色,长颈鹿有长脖子。抽象名词包括情感(高兴、痛苦、嫉妒、热情、烦恼)和思想(正义、友谊、自由、民主、信仰)。具体名词包括哺乳类、鸟类、蔬菜、水果、人造场所、自然场所、小工具和交通工具。动词则分为抽象事件(相信、怀疑、思考、憎恨、恐惧)、听觉事件(倾听、歌唱、喊叫、窃听、听闻)、触觉事件(击打、抓取、揉按、抚摸、触摸)和视觉事件(辨认、瞥见、窥视、看见、注视)。在实施义征提名时,与2011版德意双语对照义征库一样,也设定为每个概念给1分钟时间。所有反应都先录制成音频文件,再由实验者听写下来,然后由作者们协商进行标准化转写。
盲明对照义征库的征型标注方案,仍然参照WB知识分类法的基本框架。但是它采用了粗细两种分类。共有19种细类,把其中几种合并后,共形成13种粗类。该方案将在义征质性分类方案一节详述,简称LB盲明分类法(第一作者兰奇和通信作者巴洛尼名字首字母缩写)。
在最终形成的义征库中,失明者有4630条(17062次)义征,而正常对照组则共产生4508条(19087次)义征。对具体名词的初步比较发现,健康人生成更多的感觉型和数量型义征,而失明者的部件型和直接感知型义征明显偏少。对抽象名词的比较发现,两个人群并无明显差异。但是该义征库只是提供了词汇变量(词频、音节数和熟悉度等)和语义变量(义征独有度、交联度),还有待深入分析。
2013版意大利语义征库(Montefinese义征库)
这是目前为止(截止到本章定稿时间2015年2月)建库方案最详细、分析指标最完善的义征库。它虽然是意大利语单语种义征库,但提供了完整的英文翻译版,从而使其能被英语研究者所参考。之所以说它的建库方案最详细,是因为它使用了调查法对需要用于建库的范畴和样例进行了筛选,从而提高了最终所建义征库对人群语义知识结构的代表性。此前所有义征库对范畴和样例的选取,依靠的是专家意见或者已有文献。专家意见所带有的主观性往往需要人群调查来弥补,而已有文献则可能会由于时间较久,而导致其中语料已经偏离实际使用情况。之所以说它的分析指标最完善,是因为它通过加工义征提名数据,最终提供的指标涵盖了以往许多义征库研究过,并且认定有价值的变量。
该义征库的构建,经过三个步骤:选范畴、选样例和寻义征。在选范畴阶段,435名意大利语受试者接受了范畴列名任务:要求列举至少20种具体事物。为了避免在实施任务时受环境因素的诱导而出现列名上的偏倚,研究者选取了三种场景:课堂、电子邮件和暗室。前两个场景要求书面列名,而第三个场景则是口头列名。蒙特菲尼斯和安布罗西尼等认为,通过对三种场景下产出的概念进行分析,可以降低环境因素的干扰,获取语义记忆中最稳固的事物表征。完成范畴列名任务后,所列概念带有两种基本数据:概念被列举的人次(列名频次)和每个概念在得到列举时所处的排序(列名秩次)。后者受两个变量控制:人员和概念。例如,苹果在整个库中列举了100次,而张三第一个列举了香蕉,第二个列举了苹果。苹果的列名频次是100次,而在张三中的列名秩次是2。在蒙特菲尼斯和安布罗西尼等的报道中,最初的列名实验得到了1007个概念。这些概念共出现11357次。他们从中归纳得到33个范畴。为了从中找出最具代表性的范畴,在列名频次和秩次基础上,蒙特菲尼斯和安布罗西尼等以每个场景为范围,计算了各概念在其中的优势度(dominance,靶概念在该场景中的列名频次与参与该场景的总人数)和秩率(centile order value,在该场景中,用靶概念在某受试者中的列名秩次减去1,再除以该受试者所列概念总数,然后用1减去该比值)。前者表示概念在集体语义记忆中的稳固程度(1表示所有人都列举了该概念),而后者表示概念在所有概念中的排序优先程度(1表示在所有概念中排序第一)。在优势度和秩率的基础上,就可以在每个场景范围内,计算各范畴所含样例的平均优势度和平均秩率。根据这两个新指标,可以把各范畴平铺到一个平均优势度×平均秩率的空间中,继而用聚类技术(该报道选取的是K-means聚类算法),把范畴的语义代表性分为强(拥有高平均优势度和高平均秩率)和弱两类。蒙特菲尼斯和安布罗西尼等设定,只有在三个场景中都被聚类为强代表性的范畴,才可以认定为真正的高代表性范畴,用于下一阶段建库。最终,有12个范畴符合标准,其中人造类有9个范畴,自然类有3个范畴。
在选样例阶段,蒙特菲尼斯和安布罗西尼等采用样例列名法(exemplar generation task)为每个范畴筛选所含样例。该阶段共有62名受试者,要求每人至少为每个范畴列出8个样例。虽然有些受试者未能为每个范畴都列满8个样例,但最终仍采集到5761个概念。在删除不符合要求的词(如范畴的同义词、反义词、上位词、不在指定范畴内或拼写错误的词)之后,剩下的样例由蒙特菲尼斯、安布罗西尼和另一名母语使用者进行了归并编码,即把同义词统一编码成一个基础词。科恩氏卡帕系数分析显示,三者在基础词汇编码上具有较高的评定者间信度。经过上述重新编码之后,共获得824个概念。这些概念共出现5444次。它们也提供两种基本数据:列名频次和列名秩次。根据这两种数据,可以计算样例在其所处范畴内的优势度(样例在该范畴内的列名频次除以为该范畴执行列名任务的总人数)和平均秩次(把样例在每个受试者中的秩次取均值)。同时,还可以计算每个样例的首现度(first-occurrence value)和就绪度(availability)。前者是指,在为某范畴实施样例列名任务的所有人中,把某样例列在第一位的人数所占比例。后者是指,如果要把某个样例列入指定范畴中,那么该样例在多大程度上已经准备就绪,可供列入该范畴。就绪度的算法较为复杂,需要用到样例的最低秩次、总列名人数和样例在各个秩次上的列名人数。至此,蒙特菲尼斯和安布罗西尼等用了四个指标来表示样例易于列入范畴的程度:优势度、平均秩次、首现度和就绪度。相关分析表明除了平均秩次以外,其他三个指标相互都是强相关。以此为依据,蒙特菲尼斯和安布罗西尼等用优势度小于0.1作为截断值,即提名人数不足总人数10%的样例将不纳入下一阶段建库。另外,还删除了食物和兴趣爱好,因为它们所含样例可能兼属多个范畴。最终进入第三阶段的是10个范畴,每个范畴含10个样例。这些范畴包括:文具类(如铅笔、橡皮和订书机)、居所类(如卧室、厨房和窗户)、交通工具(如飞机、卡车和自行车)、家具(如床头柜、梳妆台和沙发)、家居摆设(如衣架、镜子和花瓶)、厨具(如菜刀、餐盘和平底锅)、服装(如衬衫、帽子和裙子)、动物(如马、兔子和大象)、身体部位(如手、鼻子和眼睛)和植物(如仙人掌、橡树和玫瑰)。这12个范畴共120个样例都通过人群调查获得了熟悉度(1-10级)和范畴典型度(1-10级),以完善数据库所含变量。
在寻义征阶段,蒙特菲尼斯和安布罗西尼等采用的是书面形式的义征提名法。共有417名受试者参与。每个概念由25-28名受试者进行提名。要求他们至少为每个概念写出6个反应条目。原始反应条目的标准化转写采用三人表决法。当蒙特菲尼斯、安布罗西尼和另一位母语使用者三人都达成一致时,才进行转写。提名频次小于4次的义征被认定为异常义征,未纳入义征库。义征质性分类方案主要采用CM脑区分类法。同时,也根据加勒德等(Garrard et al., 2001)的分类法(感知型、功能型、百科型和范畴型)进行了义征计数。值得注意的是,在加勒德的分类方法中,功能型没有区分能用(和人互动)和能动(自身运动),而范畴型仅指上位范畴。这显得该义征库在征型标注方面的细致度还有待改进,可能需要参考WB知识分类法进行深加工。相比之下,该义征库在量化分析指标方面进行了细致的处理,涵盖了义征的提名优势度(dominance)、提名秩次(list order)、可达度(accessibility)、独有度(distinctiveness)、线索度(cue validity)、示意度(semantic relevance)、显著度(semantic significance)和关联度等众多指标,并且根据基于义征向量的几种概念相似性算法给出了样例间概念相似性矩阵。