5 现代汉语“熵”的语体差异
5.1 引言
语言是表征意义和承载信息的符号,但如何以定量的方式来描述语言所承载的信息量?1948年,信息论之父香农(C.E.Shannon)在《贝尔系统技术学报》(Bell System Technical Journal)上发表了著名的《通信的数学理论》(“A mathematical theory of communication”)一文,当中提出了“信息熵”(entropy)的概念。今天大约有20种不同的指标来测量熵(Esteban & Morales,1995)。语言学上,熵表示语言单位携带的平均信息量或其频率分布的均匀或丰富程度。我们使用“香农熵”这一概念,是因为其计算的可操作性强,更重要的是该指数可以和计量语言学中其他指数建立联系,以便从语言学角度来解释其意义。
熵在文字识别和文本处理中尤为重要,国外学者已经陆续测出了不同语言的不同语言单位所包含的熵。如以字母为单位,法语的熵为3.98比特,意大利语为4.00比特,西班牙语为4.01比特,英语为4.03比特,德语为4.10比特,罗马尼亚语为4.12比特,俄语为4.35比特,汉字为9.65比特(冯志伟,1994);以音节为单位,韩语是6.01比特(Han et al.,1996);以词为单位,汉语是11.23比特(王德进等,1987),英语是4.76比特(Brown et al.,1992),西班牙语是4.40比特(Guerrero,2009)。其他文献可以参考Köhler(1995)。
熵还用于研究文化的复杂性(Michel et al.,2011; Juola,2013)、文学作品的作者归属(Khmelev,2000; Grabchak et al.,2013)、不同语言写成的内容相同的平行文本的区分(Kalimeri et al.,2015)、日语中复合动词的特点(Tamaoka et al.,2004)、英语中介词的语义贡献(Ferrer-i-Cancho & Reina,2002)、英语中词缀(前缀、后缀和中缀)和音标(辅音和元音)的歧义(Tanaka-Ishii,2012)等问题。
我们从这些研究中发现:从熵值来揭示不同语体的语言差异可以成为一个研究问题。理论上,熵值越高,表明语言特征的分布越均匀,用法越丰富;反之,熵值越低,表明语言特征的分布越不均匀,用法越固定。文本中最常见的语言特征莫过于词,且词在“水平”和“垂直”方向上的排列会由于文本内容和句法限制的不同呈现差异。因此,分析句中不同位置上的词及其词性的熵值,在一定程度上,可以看作是一个句法分析(这有别于传统意义上“主+谓+宾”的句法分析,我们主要着眼于从词或词性在句子中不同位置上的变化程度来看其句法灵活度)。另外,如果分析句中不同位置上的词及其词性的熵值可以看作是“纵聚合”维度上的研究,那么分析具有不同语法含义的一元词和二元词的熵值就可以看作是“横组合”维度上的研究。我们推测,通过调查这两方面熵值在不同语体中的表现,可以更好分清不同语体的特殊性。
我们将试图回答以下两个问题:(1)句中不同位置上的词及其词性的熵值在不同语体中的表现是否存在差异?(2)不同语法含义的一元词和二元词的熵值在不同语体中的表现是否存在差异?本章第二部分介绍熵的意义,第三部分探讨本研究使用的语料库——兰卡斯特现代汉语语料库(以下简称兰卡斯特语料库)、该库中词的切分及其熵值的计算;第四、五部分分别是两个研究问题的实证结果和总结。