操斧伐柯 取则不远:清华大学中文系研究生学术论文写作备览
上QQ阅读APP看书,第一时间看更新

二、基于频率统计的《红楼梦》风格分析

(一)词长分布

对每十回中不同词长的词语使用次数进行统计,并计算其在每十回中的使用比例。图1给出了一字词与二字词在每十回中所占的比例。

图1中,横轴为全一百二十回,左纵轴为《红楼梦》中每十回中一字词所占比例,右纵轴为二字词在每十回中所占比例。可以发现,在《红楼梦》中,后四十回的一字词所占比例要远远低于前面八十回,而二字词所占比例则要大大高于前八十回;从前八十回内部来看,一字词与二字词所占比例的差异并不明显。

图1 《红楼梦》中一字词与二字词所占比例

进一步,我们使用每十回的总字数与总词数之商求得《红楼梦》中每十回的平均词长,得到结果如图2所示。

图2 《红楼梦》中每十回的平均词长

图2中,横轴为全部一百二十回,纵轴为每十回的平均词长。可以发现,就平均词长来说,后四十回的平均词长要远远高于前八十回,而前八十回内部差异并不显著。

平均词长是文中词的平均音节数(一个字就是一个音节)。一般说来,平均词长较长,表明文本中的长词较多,文本更加深奥复杂,能够提供的阅读体验稍差一些,可读性(阅读和理解的容易程度)弱一些;反之,平均词长越小,表明文中的长词越少,文本也就更加通俗易懂,即是可读性更强。(7)从图1来看,在《红楼梦》全书中,一字词、二字词占到了总词数的98%以上,可见,在整部小说中,决定平均词长的是一字词和二字词的各自所占比例。后四十回的一字词占比要低于前八十回,而二字词占比要高于前八十回,且平均词长要比前八十回长,反映出后四十回的长词相对于前八十回要多,文本的复杂度更强,可读性稍弱一些。

(二)词长变化程度

在词长统计的基础上,计算每十回中每个词的词长与平均词长之差,并求出这些差的平方和,然后计算其与每十回总词数之商,对得到的结果取平方根,即为《红楼梦》中每十回的词长变化程度。图3给出的便是全一百二十回的词长变化程度。

图3 《红楼梦》中每十回的词长变化程度

图3中,横轴为全一百二十回的词长变化程度,纵坐标为全一百二十回。词长变化程度反映了作者的用词习惯。词长变化程度越大,说明作者使用词语的长度变化越大,整个文本的语言更富变化;词长变化程度越小,说明作者使用词语长度变化越小。从图3可以看出,后四十回的词长变化程度明显比前八十回要高,而前四十回与中四十回则无法看出明显的区别。反映出前八十回的作者使用词语长度的变化相对比较小,文本语言的变化不大;而后四十回的不同长度的词语交替使用,使得文本的词语长度变化相对较大。

(三)虚词的使用

虚词因其与文本内容无关,并且作者使用时往往是无意识的而被认为是最能反映文本风格的特征项。在《红楼梦》的风格分析与作者判别中,多有使用虚词作为特征项。区别于前人主要用其作为分类或聚类的特征项,本文主要采用假设检验的方法,将前八十回作为一个整体,将后四十回作为另外一个整体,来探究两个整体之间在具体每个虚词的使用上是否具有明显的差异。

本文共计选择41个虚词,分别为:

介词(10个):被、从、于、因、在、向、以、比、与、往;

助词(6个):之、者、或、的、得、过;

语气词(4个):罢、呢、么、罢了;

副词(17个):便、就、亦、未、很、也、别、更、且、还、必、皆、方、忽、只、不、偏;

连词(4个):所以、因此、连、既。

为了提高检验的准确性,我们对每一回中各个虚词使用的次数分别进行统计,并在此基础上进行标准化处理,即分别计算在每一千词中各个虚词使用的频率。

设前八十回中某一虚词使用的频率来自正态总体N1的样本,而后四十回中该虚词使用的频率为来自另一正态总体N2的样本,并且,两个总体相互独立。我们使用假设检验中的U检验来对二者的差异进行检验。

以“被”字为例,原假设为:前八十回与后四十回各自所在的两个总体中使用“被”字没有差别。

检验统计量:

①茆诗松,程依明,濮晓龙:《概率论与数理统计教程》,北京,高等教育出版社,2011,第368页。

其中,XY分别为《红楼梦》中前八十回与后四十回虚词使用频率的均值,为《红楼梦》中前八十回与后四十回“被”字使用频率的方差,mn为样本中所包含的回数,即m=80,n=40。

将相关数据代入,有:

统计学上,一般把概率小于或等于0.05的事件叫作小概率事件,意思是其只有5%可能发生的机会。这里的小概率事件实际上指的是不可能发生的事件。在假设检验中,我们先假定原假设是成立的,如果根据这个假定导致了一个小概率事件的发生,那就说明原来的假定是不正确的,则拒绝接受该假设;如果没有导出不合理的小概率事件,则接受该假设。其中拒绝原假设的概率(小概率)称为显著水平,记为α。(8)

取显著水平α=0.05,拒绝域为:|U|≥U1-α/2。查表求得,U1-α/2U0.975=1.96,即当“被”字假设检验的U的绝对值大于1.96时,应该拒绝原假设;反之,如果U的绝对值小于1.96,则应该接受原假设。

由于|U|=2.23>1.96,所以拒绝原假设,即认为前八十回与后四十回各自所在的两个总体中使用“被”字的情况是不一样的。

同理,我们求出其他40个虚词的假设检验的U的绝对值,并与1.96相比较。情况如图4所示。

图4 《红楼梦》前八十回与后四十回虚词使用假设检验结果

图4形象地展示了虚词在前八十回与后四十回中使用频率假设检验U的绝对值与临界值1.96的关系。可以看出,在所选的41个虚词中,其U的绝对值均高于1.96,即全部拒绝原假设。因此,我们认为《红楼梦》前八十回与后四十回在这41个虚词的使用上是有显著差异的。

这其中,之、或、亦、未、因此、连、皆、方、偏、罢了的使用频率,前八十回均高于后四十回;而的、得、所以、很、么的使用频率前八十回要低于后四十回,尤其是“之”和“的”作为结构助词,以及“因此”、“所以”作为连词均具有替代关系,这两个词在前八十回与后四十回中使用频率的巨大差异,折射出作者的用词习惯的不同。更加值得注意的是,在前八十回使用频率明显高于后四十回中的词中,绝大部分词语(之、或、亦、未、皆、方)均属于文言虚词,后四十回明显要比前八十回使用频率高的词语中,均不是文言虚词,而是用法与现代汉语无差的白话虚词。可以想见,前八十回的作者虽然是用古白话文写作,却较多地使用文言虚词;而后四十回的作者却比较倾向于使用近似于现代汉语的白话虚词。

(四)词类的使用

词类是词的语法分类,是词在语法结构中表现出来的类别。不同词类在文本中的使用频率,是构成文本风格的一个重要特征,如在学术文章中名词与动词的比率要远远高于其在小说与口语中的比率。(9)我们分别统计《红楼梦》中的全部实词以及全部虚词在《红楼梦》每十回中的使用次数(10),并计算每一百个词中各种词类使用的频率。并对实词中使用频率最高的六类词——名词(n)、动词(v)、形容词(a)、代词(r)、数词(m)、量词(q)以及全部的虚词——副词(d)、介词(p)、连词(c)、助词(u)、语气词(y),分别做折线图比较,如图5、图6。

图5 《红楼梦》实词使用情况

图6 《红楼梦》虚词使用情况

图5与图6中,横坐标为《红楼梦》全一百二十回,纵坐标为词类使用的频率,每个图中不同颜色和形状的点表示不同的词类。如:图5中,菱形表示名词,正方形表示动词。每一条折线反映出某个词类在全部十二个文本中的频率变化趋势。

总体来看,《红楼梦》在实词使用上的差异较大,并且前八十回与后四十回的差异比较明显,而前八十回内部的差异则要小得多。从名词来看,前八十回在使用频率相较于后四十回要少。如:

鸳鸯这么一想,邪侵入骨,便站起来,一面哭,一面开了妆匣,取出那年铰的一绺头发,揣在怀里,就在身上解下一条汗巾,按着秦氏方才比的地方拴上。

(第一百十一回)(原来这里写的是第一百十回)

从动词来看,后四十回在使用频率上也比前八十回要高,可见,后四十回对于动作的描写要比前八十回多。如:

正在没法,只听园门腰门(原来是“园里腰门”)一声大响,打进门来。见一个梢长大汉,手执木棍,众人吓得藏躲不及。(第一百十一回)

从形容词来看,除了第21~30回之外,前八十回中形容词的使用频率均高于后四十回。形容词主要用来刻画人物、环境、场景,可见,前八十回的作者对于细节、场景、人物的描写着墨较多。如:

第一个肌肤微丰,合中身材,腮凝新荔,鼻腻鹅脂,温柔沉默,观之可亲。第二个削肩细腰,长挑身材,鸭蛋脸面,俊眼修眉,顾盼神飞,文彩精华,见之忘俗。第三个身材(原来是“身量未足”)未足,形容尚小。(第三回)

从代词来看,除了前二十回以外,前八十回的其余六十回中代词的使用频率均比后四十回要高。如:

若不来时,他母女三人一处吃饭;若贾琏来,他夫妻二人一处吃,他母女就回房自吃。

(第六十五回)

数词和量词往往成对出现,其主要用来细致地描绘一个环境或者场景。从《红楼梦》来看,前八十回在数词和量词的使用频率上要比后四十回高,反映出前八十回的作者更加喜欢使用详细而具体的描写来增强小说的真实性。如:

又行了半日,忽见街北蹲着两个大石狮子,三间兽头大门前列坐着(原来这里是“大门,门前列坐着”)十来个华冠丽服之人。(第三回)

就虚词来看,后四十回在副词、助词、语气词上使用频率要高于前八十回,而在介词、连词使用上的差异并不明显。

(五)各部分独有的词

设A、B为《红楼梦》中的两个部分,A部分与B部分相比,A有B无的词语叫做A部分独有的词语。分别统计前、中、后四十回,两两比较各自独有的词语,以及以前、中、后四十回分别为一个整体,余下的八十回为另一个整体,两两比较各自独有的词语。结果如表1。

表1 《红楼梦》各部分独有的词

续表

表1中,出现次数最多的前五十个词,指的是每个部分独有的词中出现次数最多的前五十个,独有词个数指的是每个部分中独有的不同词的个数。可以发现,将全文分为前、中、后四十回三个部分进行两两比较时,后四十回独有词的数量远远小于前四十回与中四十回。同时,分别将三个部分两两组合成为八十回并与剩余的四十回相比较时,前八十回独有词的数量要远远多于后八十回与前、后四十回组合成的八十回。可见,在《红楼梦》的后四十回中,出现的新词较少,而前八十回用词相对比较连贯。

《红楼梦》中词语使用的不一致性,尤其是部分词语在前八十回与后四十回中使用的巨大差异,是《红楼梦》前八十回与后四十回作者并非一人的重要证据。试举几例:

1. 嬷嬷

在前八十回中,有34回均出现了“嬷嬷”一词。在《红楼梦》里,“嬷嬷”因其往往为贾府主子的奶妈或在贾府中具有特殊地位的年老女仆,频频出现,如“李嬷嬷”“赖嬷嬷”“宋嬷嬷”等,而在第71~80回中,更是密集出现于第71、74、75、77、79、80回;可以推测,在第105回宁国府被查抄前,府内应该有这些人继续服务,但是,后四十回中这一角色居然完全消失了。

2. 取笑

在《红楼梦》前八十回中,“取笑”作为一种相互的交流活动,而在30个章回中共出现43次;而在后四十回中,一次都没有出现。在前八十回中“笑”字一共出现了3291次,而在后四十回中仅出现了585次,“笑道”在前八十回中一共出现了2165次,而在后四十回中仅出现了224次。这可能与小说情节有关系,因为后四十回,尤其是贾府被查抄后,故事的悲剧氛围相较于前八十回浓厚得多。但是,在“笑”“笑道”上使用的巨大差异,尤其是“取笑”在后四十回中完全消失,也反映了前后文的风格差异。

3. 一语未了

“一语未了”作为《红楼梦》前八十回中吸引读者的注意力,并顺势引出即将出场的人物的惯常提示语,在前八十回中,共在24个章回中出现了38次,而在后四十回中并未出现。

4. 岂知

“岂知”作为一个惯用的表达语,在后四十回中,共在22个章回中出现了49次,平均每回使用一次以上,而在前八十回中并未出现。