语料库驱动的短语配价型式研究
上QQ阅读APP看书,第一时间看更新

2.3.2 同现词列

基于Sinclair的意义移变单位,Cheng等(2006,2008)开展了同现词列的研究。Sinclair提出意义移变单位,修正了相关的统计方法,特别是计算搭配显著性的统计方法。例如,他指出在过去的搭配统计中,把语料库中某个搭配出现的频数与搭配中各成分的频数进行对比的做法完全是错误的,主要是因为当词语的共选模式发生改变,新的意义就会产生。也就是说,搭配的意义具有整体性,与其各个成分在其他不同搭配中的意义没有关联。Sinclair以“hard+work”为例,指出当统计结果显示这两个词的共现是显著的话,那么它们共现的所有实例都是不可分开的语言实体,对于这两个词的“行为”(behavior)可以通过它们在意义单位中的身份予以解释。另外,“hard+work”的搭配与单词hard和work在其他搭配形式中是不相关的,也就是说,“hard+work”搭配中的单词hard和其他搭配(不出现单词work)中的单词hard“仅仅是一种同形异义词的关系”(转引自Cheng et al., 2008:237),这些不同的搭配实际上就是不同的意义移变单位。Cheng等(2006,2008)接受了Sinclair有关意义移变单位的思想,进而想通过识别大量的意义移变单位来达到充分描写语言中的短语学特点,但问题是如何从语料库中自动提取这些意义移变单位。研究者通常使用“n元模型”(n-gram)或者“跨元模型”(skip-gram)的方法从语料库中自动提取多词单位,但是这两种方法都有缺陷:n元模型只能提取到连续的多词单位,而跨元模型尽管可以提取非连续性的多词单位,但目前只能提取最多四个词的单位,另外无法提取到多词单位在结构位置上的变体形式。为了帮助识别语料库中的意义移变单位,也为了克服之前研究的弊端,Cheng等(2006,2008)提出了同现词列的分析方法。同现词列指共现词的所有实例,共现词之间可以是连续的,也可以是非连续的,并且不一定具有相同的“排列次序”(sequential order)。同现词列充分考虑了意义移变单位在成分的排序上以及位置上的变化。例如,work hard和work very hard属于排序上的差别,而work hard和hard work则属于位置上的变化。同现词列分析的设计原则是以“搜索源”(origin)为中心,在其左、右各12个单词的跨距(跨距可以根据研究者需求自行设定)内检索与其共现的词,所有的在同一个同现词列下检索到的,包括成分和位置上的变化形式共同构成“同现词列构型”(concgram configurations)。Cheng等(2006)使用搜索源而不是“搜索词”(node),主要是因为他们认为搜索词无法展示同现词列中的层级关系。原来Sinclair所定义的搜索词和搭配词的身份可以互换,而搜索源则不同,类似于Sinclair提出的扩展意义单位中的“核”,是固定不变的。同现词列构型为进一步分析提供数据源。首先分析模型中的词是否以及如何联系,进而识别出同现词列的“规范形式”(canonical form),并以该规范形式为标准对构型中其他的同现词列形式进行比较,按照与规范形式意义相关的程度进行排序,最后识别出同现词列的意义移变单位及其所有的变化形式。分析的最终结果就是获得一个简化的短语意义模型,这个模型将意义移变单位的可做释义的变化形式与其他分离的、不相关的意义单位区分开来(Cheng et al., 2008:238)。

Cheng等(2006)给出了同现词列分析的具体方法和步骤。第一步,通过ConcGram软件自动获取语料库中的形符表;第二步,基于该词表,以每个形符为搜索源检索出“两词同现词列”(two-word concgram),并且列出每个搜索源具有的共现词,通过T值和MI值计算出共现词与搜索源之间联系的显著性。第三步,将每个同现词列以同现词列列表的形式显示出来,并且标示出成分排序和位置上的变化形式。第四步,基于所有的两词同现词列,通过双检索源检索出三词同现词列,然后按照同样的检索步骤,找到四词,乃至五词的同现词列。

Cheng等(2008)继续深入同现词列研究,对通过ConcGram软件检索到的同现词列排列进行描写分析,识别出意义移变单位、它的规范形式以及变化形式。他们分析了两词同现词列“PLAY/ROLE”。分析包括如下一些主要内容:首先找到该同现词列中的意义移变单位的规范形式。为此,他们借鉴了Sinclair & Mauranen(2006)提出的两个线性语法中的概念:文本对象(textual objects)和文本事件(textual incident)。文本对象包括主要的传统词性,如名词、形容词、动词和副词,它们或以本身的词性独立出现或者作为短语的主导词出现,并且是一个单独的语言实体,往往具有向心关系(endocentric relationship),如role play作为一个名词短语,两个词之间呈向心关系。文本事件指由至少两个文本对象组成,并且相互之间呈现内部的离心关系(exocentric relationship),如短语play a role,play和a role是两个文本对象,一起构成了文本事件,呈现内部的离心关系。经过分析,他们发现,除了频数因素外,决定规范形式的主要因素是要看意义单位属于文本对象还是文本事件。例如,“两词同现词列”PLAY/ROLE中包含两个规范模型,一个是PLAY∗∗ROLE(每个星号代表一个单词),另一个是ROLE/PLAY(名词短语),前一个是文本事件,后一个是文本对象。每个规范形式代表了一个意义移变单位。其次,他们分析了意义移变单位的规范形式与变化形式之间的关联性。为此,他们提出了“动荡系数”(degree of turbulence),指变化形式与规范形式在形式和意义上的差异性。经过分析,他们发现介入规范形式的词越多,动荡系数就越大,就离规范形式越远。他们对变化形式按照动荡系数由底到高进行排序。

Cheng等(2006,2008)开展语料库驱动的同现词列研究,一方面是为了全面描写语言中的短语特点,发现语言中的意义移变单位,另一方面也是为了克服之前的n元模型和跨元模型存在的不足。根据Cheng等(2006,2008)的说明,同现词列分析是自动的,所得到的同现词列构型为进一步开展意义移变单位研究提供了数据源。因此,我们可以说同现词列分析是具有一定进步性的:首先,在理论上遵循着Sinclair提出的意义移变单位的理念;其次,实现了Sinclair提出的意义单位的规范形式和变体的自动提取。但是,同现词列分析也存在着一些问题:首先,在计算两词同现词列时,采用了T值和MI值,尽管这是目前在搭配研究中被广泛采用的统计方法,但其效果并不是特别令人满意,就连Sinclair自己也对它们丧失了原有的信心。在实际分析中,Cheng等(2008)也的确发现通过两种方法得出的统计结果不完全一致。另外,在三词以上的同现词列分析中,无法再使用这些统计方法,只能依靠最原始的频数信息。其次,通过统计方法计算出来的同现词列包含了许多不真实的搭配信息。如Cheng等(2006)通过ConcGram检索出两词同现词列ALRIGHT/SO,指出这两个词在口语英语中关联系数很大。但是我们从研究中给出的词语索引中找到这样的例子:“I think you need to do so many things. Alright.”,“you will obtain so called the resonance alright this is the resonance”,“in a group okay so that you can talk alright er let’s let us have”。通过观察这些索引,我们发现RIGHT和SO并不是直接关联的,相反SO和其他词的搭配关系要更加显著。另外,在四词同现词列CASE/THE/IS/THIS中,我们发现这样的例子:“now if rent is true in this case the question come up with”,“if you talk about competitors in this case that is the threat”,我们很难去判断这些词之间的关联。虽然Cheng等(2006)把这些例子解释为该同现词列规范形式的变化形式,并且离规范形式距离较远,但这种解释却非常牵强。因此,在同现词列分析中,存在这一个无法克服的难题,如果设置的跨距小了,会漏掉一些可能的非连续的、在位置上变化大的单位,但若设置的跨距大了,就会出现很多无用的干扰信息。第三,同现词列分析摒弃了一般搭配检索时采用的搜索词,而使用了搜索源,理由是搜索词无法展示意义单位的层级关系,并且容易与搭配词发生角色互换。搜索源可以是一个词形,也可以是两个词以上的同现词列,这个同现词列不一定是连续的单位,也可以是非连续性的多词单位。Cheng等(2006)之所以使用搜索源的概念,实际上是想与Sinclair提出的扩展意义单位中的核的概念相照应,这一点在之后的研究中也得到了验证(Cheng et al., 2008:248—249)。但是,无论两词、三词,抑或四词,乃至五词同现词列分析,其结果都是检查了具体词汇之间是否具有搭配关系,尽管同现词列排列中包括了各种各样的变体,同现词列表示的也只是具体的词,缺少扩展意义单位中涉及的语法、语义和语用层面上的抽象,而这些抽象的范畴正好能够解释多词意义单位中存在着的丰富的变化。尽管Cheng等(2008:248—249)使用了扩展意义单位中的五个核心概念,即核、搭配、类联接、语义趋向和语义韵来分析同现词列,但在具体的分析过程中,对这些概念的处理是相互独立的,是碎片式的,忽视了它们之间原有的联系。另外,还有其他一些问题没有解决,如同现词列的边界问题,同现词列的语用功能问题,等等。从这个意义上讲,同现词列分析实际上只是帮助到扩展意义单位中的核,以及核的搭配,但若要想发现完整意义上的意义单位,则需要采用扩展意义单位分析的途径,在词语、语法、语义和语用等多个层面上进行综合分析。