
3.3 结果
3.3.1 多义度
假设(1)PL=aLb,多义度受词长影响,表现为抑制作用。其中参数a反映了编码负担最小化和解码负担最小化之间的平衡,参数b表示词长影响多义度的程度。拟合结果见表3.1和图3.2。可见词长对多义度产生抑制影响,即词越长,则词义数量越少,符合假设。
表3.1 验证假设(1)PL=aLb多义度与词长关系


图3.2 验证假设(1)PL=aLb多义度与词长关系
3.3.2 多文度
假设(2)PT=aPLb多文度受多义度影响,表现为增益作用。参数a反映的是语境经济性和语境特殊性的折中数值,参数b表示多义度对多文度的影响程度。拟合结果见表3.2和图3.3。结果与假设一致,多义度对多文度产生增益影响,即词的意义数量越多,可使用的语境就越多。
表3.2 验证假设(2)PT=aPLb多文度与多义度关系


图3.3 验证假设(2)PT=aPLb多文度与多义度关系
3.3.3 频率
假设(3)F=aPTb频率受多文度影响,表现为增益作用。其中参数a代表应用需求,参数b反映多文度对频率的影响程度。拟合结果如表3.3和图3.4所示。我们在此处取得的参数分别是a=1.2653, b=1.0572。值得指出的是,在德语和英语的研究中分别取得了a=1.12, b=1.1和a=1.37, b=1.15的数值。语言类型不同的语言数据符合同一规律并不奇怪,但其参数值如此接近却是令人惊讶的发现。
表3.3 验证假设(3)F=aPTb频率与多文度关系

(续表)


图3.4 验证假设(3)F=aPTb频率与多文度关系
3.3.4 词长
假设(4)L=aFb词长受频率影响,表现为抑制作用。参数a是词库大小、音素库大小和音素冗余度共同作用的一个综合参数,参数b代表频率对词长的抑制程度。拟合结果如表3.4和图3.5所示。拟合度相比于前3组数据低很多,只有0.3515,而且数据点围绕理论曲线剧烈波动。但这一现象并不只发生在汉语数据中,英语和波兰语研究也得到了类似结果,其拟合度分别是0.38~0.86(Gieseking,1998)和0.417~0.732(Hammerl &Sambor,1993)。
表3.4 验证假设(4)L=aFb词长与频率关系


图3.5 验证假设(4)L=aFb词长与频率关系
为进一步研究词长—频率的波动现象,我们考虑扩大样本,此前我们选取了《人民日报》语料库的500篇文章,现在我们把所有3147篇文章全部收录进来。并且,词长和频率两个属性值都不依赖于词典,因而不再删除未收入《现代汉语词典》(第5版)的词,得到51263个词形。拟合之后得到表3.5和图3.6所示的结果。显而易见,图3.6的波动现象较图3.5大幅度减小,拟合度也提高到0.5447。参数b'=-0.0638,而原样本参数仅为b=-0.0383。
必须指出的是,现代汉语倾向于使用双音节词,其占词典词汇量的66.9%(Wang, 2012),占样本词表的63.08%。实际上,为了不增加音节库、字库,双音节的构词实际上是最经济的造词法。从图3.6中可以看出,数据点主要围绕L=2这条线,在幅度为1之内波动。
表3.5 扩大样本验证假设(4)L=a'Fb'词长与频率关系

(续表)


图3.6 扩大样本验证假设(4)L=a'Fb'词长与频率关系
针对汉语还存在一个特殊的问题——切词问题,切分成尽量短的词还是尽量保留长词,无论倾向于哪一种方法,我们都要面对困境:词切得短,必然遇到数据点剧烈波动;词切得长,则不容易被词典收录,难以确定多义度。
如果数据点对理论曲线的偏离和波动是随机发生的,我们可以借助移动平均线来消除这一现象,即选定某一窗口尺寸,将窗口内的所有数值求和再取平均值,将这个平均值作为窗口中心点的值,按点距移动窗口,重复此法直到在自变量维度上完成上述过程。移动平均线可抚平短期波动,反映长期趋势或周期。我们选取100、50、20这三个窗口尺寸,处理数据并用幂律方程进行拟合,结果见表3.6和图3.7、图3.8、图3.9,仍不够理想。
考虑到词长本身的性质,我们尝试用指数方程拟合数据,其意义是,在词长受频率影响而缩短的过程中,剩余的词长也是一个影响因素,结果拟合率大幅提高,见表3.6和图3.7、图3.8、图3.9。与Köhler(1986)在德语研究中的分析相一致,词长缩短的速度不仅取决于频率,也取决于词长本身。虽然词长受频率制约,但其缩减效应不是无限的,已经很简短的词不太可能进一步变短。单音节词无论频率多高,也不可能再缩短,汉语中也不存在零音节词汇。缩短效应对不同的词长的作用效率也是不同的。因此,波动现象表面上指向“可缩短部分”和“剩余部分”之间的竞争,实际上是编码负担最小化和解码负担最小化的冲突。
表3.6 移动平均数据拟合结果


图3.7 移动平均数据(窗口尺寸=100)拟合幂律方程和指数方程

图3.8 移动平均数据(窗口尺寸=50)拟合幂律方程和指数方程

图3.9 移动平均数据(窗口尺寸=20)拟合幂律方程和指数方程
3.3.5 间接关系检验
依据3.2.3中的方法,我们计算得出4对间接关系的理论方程参数,通过数据拟合得到实证方程的参数,然后对二者进行T检验,结果如表3.7和图3.10—图3.13所示。T检验设定置信区间为99%,如果关键值大于0.01,说明2组参数不存在显著性差异,可接受模型假设。如表3.7所示,只有PL=aFb这一对关系的理论参数和实证参数存在显著性差异,然而其实证方程本身拟合度就非常低,仅为0.2292,它与理论方程的比较并无太大意义。
表3.7 间接关系拟合结果及T检验结果


图3.10检验间接关系PT=aLb 多文度与词长关系

图3.11 检验间接关系L=aPTb词长与多文度关系

图3.12 检验间接关系F=aPLb 频率与多义度关系

图3.13 检验间接关系PL=aFb 多义度与频率关系
我们可以使用上述方法,进一步验证双倍间接关系,即图3.1中实线的反向关系,结果如表3.8和图3.14—图3.17所示。除PL=aPTb关系,实证方程均取得了良好的拟合结果。T检验显示除F=aLb关系,其他3对参数均存在显著性差异,但是理论参数和实证参数保持着相同符号,即作用方向一致。
表3.8 检验双倍间接关系结果及T检验结果


图3.14 检验双倍间接关系F=aLb频率与词长关系

图3.15 检验双倍间接关系L=aPLb词长与多义度关系

图3.16 检验双倍间接关系PL=aPTb多义度与多文度关系

图3.17 检验双倍间接关系PT=aFb多文度与频率关系