操斧伐柯 取则不远:清华大学中文系研究生学术论文写作备览
上QQ阅读APP看书,第一时间看更新

《红楼梦》计量风格学研究

刘 颖 肖天久

一、引  言

《红楼梦》是中国古典四大名著之一,亦是在全世界范围内颇有影响力的著作之一。然而,对于《红楼梦》的作者,学界多有争议:众多学者认为《红楼梦》前八十回作者为曹雪芹,后四十回为时代稍后的高鹗所作,或者至少认为前八十回与后四十回并非一人所作;与之相对应的,便是坚持认为《红楼梦》为同一人完成。对于《红楼梦》尤其是后四十回作者归属的争论从清代以来一直伴随着《红楼梦》的研究,时至今日,《红楼梦》是否为一人所作,学界虽有多方考证,但仍然是众说纷纭,莫衷一是。

从计量风格学的角度对《红楼梦》进行研究,是从陈炳藻开始逐渐发展起来的。其利用计算机考察《红楼梦》五种词类前后用字(词)的相关程度,得出全一百二十回为一人所作。(1)其后,陈大康对文中出现的27个词语、47个虚词、不同句长的分布和平均句长进行统计,用斯米尔诺夫总体分布检验法得到前八十回与后四十回作者不同的结论。(2)而后张卫东、刘丽川通过统计《红楼梦》中230个非常用字尤其是4个粗话脏词和3个异体字的使用情况,以及每回结尾的差异,发现前八十回与后四十回有极大的差异,由此认为该小说并非由一人完成。(3)李贤平采用类χ2距离、主成分分析、广义线性模型等多种统计分析方法和三种层次聚类方法对47个虚词进行考察,综合前人的研究成果,认为《红楼梦》是由不同的作者在不同时期撰写而成。(4)近些年来,对于《红楼梦》的统计分析研究更为深入,如将《红楼梦》中的虚词作为特征使用支持向量机对全部一百二十回进行分类,证明《红楼梦》并非一人所作;(5)使用两个独立二项总体等价性检验的方法通过前八十回与后四十回对海棠的关注程度的差异对其作者进行判定,(6)诸如此类。从目前来看,学界的研究多是从某一些方面对《红楼梦》尤其是后四十回的作者归属进行判定。而同时从多个层面,运用多种方法,系统深入地对《红楼梦》整体风格进行研究,并对前八十回与后四十回的差异进行比较则相对较少。

本文从计量风格学的角度,除继续采用传统的虚词作为语言特征外,还引入词长分布、词长变化程度、词类、各部分独有词、高频词等特征,通过定量统计与定性分析相结合,从总体上对《红楼梦》的风格进行研究,并对后四十回与前八十回的关系进行考察。由于每一回的字数较少,为了使结果更准确,描述更为形象,本文在统计词长、词类、高频词以及利用词类和高频词进行文本聚类的时候,将每十回合为一个文本;而在虚词差异检验的时候,则将每一回视为单独的文本。