计量语言学研究进展
上QQ阅读APP看书,第一时间看更新

1 齐普夫定律的语言学解释

1.1 引言

乔治·金斯利·齐普夫(George Kingsley Zipf)博士,哈佛大学语言学教授。20世纪30年代,他在研究英语文本时发现,如果将文本中词出现的频率逆序排列,则序数与频率之间有幂律关系。即,

这里,r是词频的序,f是词频,c是归一化常数(Zipf,1935,1949),其意义是最大频率,α是幂律指数,齐普夫发现它约等于-1。这个规律在所有人类语言中都成立,因此,被称为齐普夫定律。

齐普夫定律的幂律关系一般都会表现在多个数量级上,因此,为了能够比较直观地观察词频序关系,常使用双对数坐标表示。在该坐标下,齐普夫定律的词频序关系表现为直线。

实质上,对于任何数列,逆序重排列一定会形成一个不增的序列,因此齐普夫定律看起来并没有多么特别,只不过该定律告诉我们,词频下降的速度非常快,与序的倒数(式1.1中当α=-1时)同阶,因此形成这样的情形:大量词的频率都非常小,而极少数词的频率非常高。

但是由于齐普夫定律陈述的是词频的变化规律,而词频与很多语言问题和现象有关,如激活时间、信息量、语法等,所以词频在语言系统中占有重要地位。正因如此,齐普夫定律在语言研究中也就非常重要。实际上,它开创了用计量方法研究语言的先河,也是现代自然语言处理的基础。

更加受到关注的是,除了语言,很多自然和社会现象也都表现出了幂律关系,如地震灾害的规模、月球坑的直径、物种数量、城市人口、公司规模、个人存款,很多研究都做了详细的回顾(Mitzenmacher,2004; Newman,2005; Farmer & Geanakoplos,2006; Saichev et al.,2010; Piantadosi,2014)。因此,大量的研究工作投入到了寻找这些普遍存在的幂律背后的统一机理之中。虽然这些研究提出的多种理论和模型在很多领域都产生了重要影响,但是它们并没有作为这些现象背后的统一机理而被普遍接受,其主要原因是它们并不能对每个现象自身的机理给出清晰的解释。

另外,作为揭示语言学性质的齐普夫定律,反映了语言系统怎样的性质?语言与这些自然和社会现象有相同的内在性质,因而都产生了相同的分布规律吗?作为语言系统的规律,为何齐普夫定律阐述的幂律分布与真实语料表现出来的并不一致?语言使用的基本单位是句子,词是应句子表达意义的需要而出现在句中的,看似随机的句意,是如何产生出幂律的呢?这些是本章研究的主要问题。

本章首先讨论齐普夫定律的普遍产生机理,然后讨论词频序关系的幂律拟合的准确性,这是研究齐普夫定律的基础,同时也是在语言中进一步解释齐普夫定律的基础。然后,我们研究句子中词频序的分布。词频的序与词的很多性质有关,虽然齐普夫定律描述的是语料中词的频率的性质,但是,语言实际使用的基本单位是句子,而不是词。那么,在一个个句子累积,使得词的频率与频率序之间产生出幂律关系时,这些词在句子中是如何分布的?