1.2 齐普夫定律的普遍性_计量语言学研究进展-QQ阅读男生玄幻网

上QQ阅读APP看书，第一时间看更新

1.2 齐普夫定律的普遍性

幂律广泛存在于自然与社会现象之中，被认为是频率与频率序之间的普遍关系。目前提出的模型均难以解释为何这些看似不相关的系统都符合幂律。本节通过对多话题自然语言文本的统计分析，讨论了频率序的意义，并在此基础上研究了“层级选择模型”。通过对该模型的计算机仿真实验，我们发现层级及对高层级的优先选择在一定条件下可以产生幂律。因此，幂律可能来自层级的涌现，层级的普遍性决定了幂律的广泛性。

1.2.1 概述

许多自然和社会现象中对象的出现频率与频率序都可用幂律关系表示。现在已经发现了大量的现象遵从幂律，如城市人口（Zipf,1949; Makse et al.,1995）、个人收入和财富（Chatterjee & Chakrabarti,2007）、公司规模（Simon & Bonini,1958; Axtell,2001）、人名的出现频率（Zanette &Manrubia,2001）、论文引用数（Price,1965）、战争规模（Roberts &Turcotte,1998）、书和音乐唱片的销售量（Cox et al.,1995; Kohli & Sah,2003）、股市波动（Gabaix et al.,2003）、月球坑大小（Neukum & Ivanov,1994）、物种数量（Willis & Yule, 1922）和地震规模（Sornette et al.,1996; Mitzenmacher,2004）。在诸多幂律现象中，最著名的当属齐普夫定律（Zipf,1949）。该定律指出：在人类语言的文本中，词出现的频率与其频率序之间为反比例关系。

对于该现象的研究有很多方法。一些研究是针对特殊领域的现象（Kello et al., 2010; Popescu et al.,2010; Martínez-Mekler et al.,2009; Gabaix et al.,2003; West et al., 1997; Tuzzi et al.,2009），还有一些研究试图通过构拟幂律形成的机理来解释该现象（Popescu & Altmann,2008b; Corominas-Murtra & Solé,2010; Baek et al.,2011; Newman, 2000）。然而，这些机理大部分都只是引入抽象的模型，并没有给出与具体现象相关的解释。此外，与该现象相关的一些基本问题仍未得到解答。一个主要问题是，为何幂律是普遍存在的？具体说来，幂律中的频率序仅表示了出现频率的顺序吗？它对于幂律的意义是什么？幂律指数α的意义是什么？影响幂律指数的因素是什么？

为了研究这些问题，本章分析了自然语言文本，提出了“层级选择模型”。该模型可以解释幂律指数的意义和几乎全部的频率序关系，且推导出了控制幂律系统的方法。

这些解释不仅与已有的相关研究一致，而且依据该模型给出的结论也与大量自然和社会现象一致。我们发现，在人类社会的很多现象中，层级的存在及人们对高层级的追求产生了幂律。或者说，幂律是层级的统计和涌现现象。由于“层级在自然界随处可见”（Simon,1973），因此幂律便有了普遍性与广泛性。

1.2.2 多话题文本的统计分析

词依据规则组成文本，一些词，如功能词，可以出现在任何话题的文本中；而很多内容词，则只出现在与某话题有关的文本中。而词出现在句子中是应表达意义的需要。这说明，词频的分布是与其出现于其中的话题有关的。进而，频率序可能也与话题相关。为了研究词可以出现的话题数量对于词频分布的影响，以及频率序的意义，我们选择了不同话题的新闻报道作为统计文本。

研究所用全部文本共计10287433词次，由138243个不同的词组成。文本包括8个话题：IT、健康、体育、旅游、教育、就业、历史和军事。每一个话题包括1990篇汉语新闻报道。表1.1是8个话题及全部文本的统计概况，包括词数、话题中词频的累计及其幂律拟合结果（幂律指数和拟合优度）。拟合使用最小二乘法。本章对数据的幂律拟合均采用该方法。

表1.1 8个话题及全部文本的统计概况

由表1.1可知，各话题及全部文本的词频及其序的关系均符合幂律，各话题的幂律指数（绝对值）在1.5附近，而总文本的幂律指数（绝对值）约为1.7，明显高于各话题。

每个词都有其各自的出现语境，有些词可以出现在任何话题中，它们一般具有高的词频，即低的词频序；还有一些词只能出现在很少的话题中，这些词具有低的词频，即高的词频序。这说明，一个词的词频序与其能出现的话题数有关。

图1.1中，横轴是词的频率序，纵轴是密度估计值。8条曲线表示分别具有1～8个话题数（本章以下“话题数”简写为NT）的词的分布。曲线8所表示的词可以出现在所有话题中，即是话题无关词。曲线1表示的词只能出现在一个话题中，即为话题专用词。估计密度曲线使用核平滑法（kernel smoothing method）（Bowman & Azzalini,1997）。显然，在每个话题中词的集中位置与其词频序有倒序关系，这意味着词频序与其NT相关。为研究NT的性质，我们计算了每个话题集中词的数量、词频序及其词频分布的幂律拟合，结果见表1.2。

图1.1 词的话题数分布于频率序上的估计密度函数

（注：话题数的8个分布沿着频率序顺序排列，这表明频率序也具有话题数的意义。）

表1.2 各话题数的词的分布

第二列（平均词频序）的意义已经在图1.1中指出，各NT的平均词频序具有单调顺序，表明了NT与词频的序的相关性；第三列（词数）表明，NT的值与具有该NT值的词的数量之间具有反比例关系；第五列（词频百分比）表明，组成文本的绝大部分词选自NT=8的词子集，当NT在1～7时，NT越大，被选择的词数越少；最后两列表明，在每个NT的词子集中，词频均很好地服从幂律分布。

在NT为1～6时，随着NT的增加，词的数量单调减少，但是到7和8时反而增加，即呈现一个U形分布。我们可使用两个幂律函数拟合这个关系，拟合结果是：f（x）=81539x-2.094+69.9x2.26, x表示NT, f（x）是具有NT为x的词的数量。

如表1.2与拟合结果所示，有两个规律会影响每个话题中词的数量：第一是减少律，它在小的NT中起作用，随着话题数的增加词数显著减少，即能用于更多话题的词的数量更少；第二是增加律，它只对话题无关词起作用，当词可以用于任何话题时，其数量转而增加。这两个规律总括起来的意义是，语言中的词倾向于只表达特定的话题，但是，有一部分词可用于表达所有的话题。

为了进一步分析词频序与NT的关系，我们计算了它们之间的相关系数。由于在每一个话题集中词数服从幂律分布，故计算是基于等比例数量的词，而不是同样数量的词。结果显示，相关系数是-0.9811，即词频序与NT显著相关。

接下来，我们分析了表1.2中词频百分比的分布。当组成文本时，近84%的是NT为8的词，即可以被用于任何话题的词。其NT为1～6的词，各自占约1%～3%。NT是7的词，其词频略高于NT为1～6的词。对于词频百分比的幂律拟合结果是f（x）=83.84（9-x）-3.791，优度是0.9971；这里，x表示NT, f是NT为x的词所产生的词频。值得注意的是，数量最少的词产生了最高的词频。

另外，在具有同样NT的词中，少部分的词产生了绝对高的词频，而绝大多数词只产生非常低的词频，拟合结果显示，这个关系符合幂律。

每个话题子集中词频的分布（表1.2中第5列）表明，当我们使用自然语言表达时，我们绝大多数时候选择可以用于任何话题的通用词汇，然后添加很少的内容词，以产生具有特定意义的表达。从句法的角度讲，通用词都可以用来形成构式（construction），然后用内容词填充构式中的空槽（slot），以形成一个完整的表述，这与构式语法的观点一致（Fillmore et al.,1988; Goldberg,1995; Kay & Fillmore,1999）。

一个词的NT表达了该词可以出现于多少话题中，反映了该词的“组句能力”。如表1.2所示，总体上，能力越高的词数量越少。即，可以认为词被分成了不同层级，虽然高层级的词数量很少，但被选的概率却很高，反之亦然。

以上数据说明，语言中的每个词都有自己的NT，词的数量与其可以出现在其中的NT之间的关系遵从幂律。当人们选择词去表达思想时，他们使用最多的词是话题无关词，词的出现频率与限制的程度呈现幂律关系。换言之，词频序是人类语言的内在属性，而不是由选择的文本决定的。即，语言中客观存在的内在的词频序及与其相关的几个幂律产生了词频与其序之间的幂律关系。

1.2.3 层级选择模型及其仿真结果

图1.1和表1.2显示，词的频率由以下两个参数决定：词的NT以及在相同NT的词中该词被选择的概率。依据条件概率的计算方法，当选词组句时，词频的形成可以被分解为两个步骤：选择NT，并在相等NT的词中选择词。因此，有三个因素影响词频与其序的关系：第一，在每一个NT中词数量的分布fm（x），此处x是NT；第二，在每一个NT中词频的分布fw（x），这里x是在该NT中的词频序；第三，每一个NT被选择的概率fc（x），这里x是NT。

为了研究幂律的产生，我们依据以上分析构造如下“层级选择模型”：

给定N个对象，属于M个层级（这里的层级数M等价于文本中词的NT）, M＜＜N；

每个层级中对象的数量有分布fm（x）, x是层级数；

当一个层级被选中后，其中的对象被选择的概率有分布fw（x）, x是对象的频率序。每次选择时，每个对象的被选概率都保持不变；

对于每一个层级来说，被选的概率有分布fc（x），这里x是层级数。

选择对象的过程分为以下两步：首先选择层级，然后在被选层级内选择对象。

对该模型，我们感兴趣的是经过多次选择后，每个对象出现频率的分布。我们假定在每个层级中的fw（x）是相同的，因为在文本分析中我们已经看到fm（x）、fw（x）和fc（x）都呈幂律形式，因此结果的词频序幂律是来自于这些幂律的叠加。但是，如果这三个分布呈现比幂律更缓慢的变化形式，结果的对象序关系仍可呈现幂律形式吗？为此，我们令fm（x）、fw（x）和fc（x）为三角分布，对象的总数保持不变，层级数、每个三角分布的最大值与最小值的比例规则地改变。依以上参数要求多次随机重复选择后，我们使用幂律拟合了每个对象的出现频率与其序的关系，计算了相应的拟合优度和幂律指数。

对于层级数，fm（x）、fw（x）和fc（x）的拟合优度的方差分析显示，它们的p值均为0.000，即表明，这四个因素对于幂律的拟合优度都有显著影响。当层级的对象数的最大值与最小值的比例大于3时，只要fc（x）不是均匀分布，所得到的频率序关系就会呈现幂律。

值得注意的是，当fw（x）为均匀分布时，结果的频率序关系仍可为幂律。图1.2显示的是当层级数为5, fw（x）为均匀分布时，拟合优度随 fm（x）和 fc（x）变化的等高线。可以看到，很多结果是呈现幂律关系的（如果要求低一些，拟合优度＞0.75即可被认为是符合）。图中是当fw（x）为均匀分布，层级数为5时，改变fm（x）和fc（x）的三角分布的最大值与最小值的比，结果频率与其序的幂律拟合优度的等高线。图中数值是幂律拟合优度值。由左上部分数值可见，在该条件下结果仍呈现幂律关系。这表明，即使每层中对象被均匀选择，当各层对象数不同，且对象数少的层被选择的概率大时，结果的频率序关系仍符合幂律。

图1.2 三角分布的仿真结果

为了研究层级数、fm（x）、fw（x）和fc（x）对幂律指数α的影响，我们计算了这四个因素对幂律指数的方差分析。全部的p值均为0.000，这表明每个因素对幂律指数均有显著影响。幂律指数的回归分析显示出，fm（x）、fw（x）和fc（x）与α正相关。换言之，这些分布的非均匀程度越大，幂律指数α也越大。

以上实验结果说明，当对象被分为层级，每个层级中对象的数量相差较多，对象数少的层级被选择概率大时，即使每个层级中的对象被选的概率相等，所得到的频率序仍可呈现幂律关系。如果对象数少且将被优先选择的层级看作是高级的（这与很多社会和自然现象是一样的），那么幂律产生的机理就可以归结为层级的存在及对高层级的追求。

基于以上层级选择模型，我们研究了幂律指数与层级数和对象数的关系。我们设计仿真实验，其中fm（x）、fw（x）和fc（x）固定为幂律分布不变，其指数值取表1.2中的对应值。控制对象数与层级数系统地变化，经多次循环选择后，我们用幂律拟合对象的被选择频率与其序的关系，并计算其指数。所得拟合优度的均值为0.9363，标准差为0.0204，这表明对象的频率序关系服从幂律分布。其中幂律指数与对象数的关系（图1.3（a））表明，当层级数不变时，对象数越大，幂律指数α越小。幂律指数与层级数的关系（图1.3（b））表明，层级数越大，幂律指数α越大。简言之，幂律指数反映了系统中对象的能力的偏差程度。

仿真实验也可预测言语信息交流过程中由于话题的转变而导致的幂律指数变化：一个新话题的引入，并不会显著增加新词（表1.2显示，一个新话题中绝大多数词都是话题无关词，即与原话题的绝大部分词相同），但是会增加层级数，这就增大了幂律指数α（图1.3（b））。如果一段话语包含很多话题，则其幂律指数会明显变大。如，精神分裂症（schizophrenia）患者的语言就具有这样的特点，因而其话语的幂律指数就显著高于一般的话语（Ferrer-i-Cancho,2005b）。一个大的文本一般都包含较多的话题，因而也具有较大的幂律指数。这与“层级选择模型”的预测是一致的，也与表1.1中的数据相符。

图1.3（a）幂律指数与对象数呈单调关系（b）幂律指数与层级数呈单调关系

（注：（a）每条曲线表示不同层级数的指数。（b）每条曲线表示不同的对象数。）

1.2.4 模型的解释能力

已经发现的自然与社会系统的幂律大多符合一个共同特性：层级性。基于我们此前提出的模型仿真的结果显示，层级结构和对高层级的追求会产生幂律。表1.3列出了带有层级结构的幂律现象，以及依据“层级选择模型”对其所做出的解释。表中给出了模型组成与现象之间的对应关系。

表1.3 依据“层级选择模型”给出的一些幂律现象的解释

在一些现象中“层级”和“选择”是显式存在的。表1.3中列出了模型与幂律现象的对应关系，这解释了其幂律的成因。如表1.3所示，每个层级中对象数量不同，层级越高对象数量越少，且人们偏好对象数量少的高层级，因此层级越高，其中对象被选择的概率越大。这就满足了“层级选择模型”中发现的幂律生成条件。

总之，自然文本中词频及其序遵从幂律（齐普夫定律）以及一些社会现象呈幂律的原因是：“对象”是有层级的，层级代表对象的某种“能力”或者多种“能力”的综合的优劣，因而不同层级的“对象”数量不同，且“对象”数少的层级被选择的概率高。幂律指数表明了对象“能力”的偏差程度。

既然幂律意味着不均匀，而过度的不均匀在有些情况下是不受欢迎的，如城市人口的过度集中、几个大公司形成的垄断、个人财富差距的过度增大等，那么如何控制一个系统的幂律指数α呢？本研究的仿真结果给出了一些原则性的方法。如降低同层级内对象被选择频率的相差程度，或者通过多元化的价值取向削弱对层级的追求，即降低选择层级概率的相差程度等。如对于城市人口的过度集中，可以分散超级城市的“能力”，将经济中心、政治中心、文化中心、交通枢纽等分散在少数几个城市，进而增加超级城市的数量；对低层级的城市还可以通过增加文化和自然等特色的办法，降低生活成本来削弱对高层级城市的单一向往。

我们也注意到，对于规模—序（scale-rank）幂律关系，如地震规模、月球坑大小、太阳耀斑、物种数量等，“层级选择模型”还不能提供直接的解释，需要进一步的研究。这更可能是因为，并非所有的幂律都由一种机理产生。

总之，由于“能力”差异形成的“对象”的层级，以及对“能力”的单一追求，形成了幂律。在人类社会中，秩序和价值体系产生了普遍的层级结构，且使得人们偏好对于高层级的追求，这就为幂律的形成创造了条件。因此，幂律在人类社会乃至自然界中具有广泛性。

本研究的仿真结果为解释幂律的普遍性提供了一个思路。而关于人类语言中的层级性，一直在语言学家的关注范围之内。这种层级性与很多社会和自然现象同构，因而就形成了相同的分布结果。

本研究表明，在一个相当宽松条件下的层级结构，是可以产生幂律的。所产生的幂律的特征参数——幂指数的范围也比较大，该参数与层级数和对象数有关，即与系统结构有关。接下来，我们研究语言系统的结构与其幂律的关系。本节中的“层级选择模型”只是一个原则性的机理，为语言中的齐普夫定律提供一种解释方向。下一节将深入语言和语言学内部，分析词频序关系。

齐普夫定律指出，语言文本中的词频与其序的关系呈现幂律分布。该关系在双对数坐标下呈现直线形态，但是很多研究已经发现真实的词频序关系呈上凸形态。