计量语言学研究进展
上QQ阅读APP看书,第一时间看更新

3.2 协同模型

3.2.1 词汇层面的协同模型

词汇系统受到很多属性的影响,有些是核心属性,直接作用于系统,如:

多义度:一个词所承载的意义数量;

多文度:一个词所能使用的语境数量,即篇际出现次数;

频率:一个词的绝对频次;

词长:一个词的音节数量。

其他属性只通过序参数产生作用,而非直接影响系统,因此我们只考虑上述4个核心属性。图3.1为简化后的结构图,其中长方形代表系统变量,箭头表示作用方向,正负号表示该作用是增益或制约,实线表示其两端的属性值具有直接关系,虚线表示间接关系。

图3.1 简化的词汇协同模型

3.2.2 形式化

图3.1中任意两个直接关联的属性,其数值关系可用如下的微分方程(Köhler,1986)表示:

其意义是,因变量y的相对变化速率与自变量x的相对变化速率成比例(Altmann &Köhler,1995),解该方程得:

此即为幂律方程形式。由此,我们给出如下具体假设:

3.2.3 验证方法

间接关系的测定是独立于直接关系的,因此我们用各属性之间的间接关系进行模型的验证。方法是衡量理论预测结果与实证测定结果之间的偏离程度。

首先,计算理论方程参数。从直接关系的方程推导出间接关系的理论方程。例如,我们用假设(1)当中的方程PL=aLb代换到假设(2)PT=aPLb的方程中,得:

at=2, bt=b1b2

PTt=atLbt

由此,理论模型方程可表示为:

Yt=atXbt

然后,测定实证方程参数。通过拟合实证数据取得实证方程:

Ye=aeXbe

最后,用T检验验证理论参数at,bt与实证参数ae,be之间是否存在显著性差异。

3.2.4 汉语数据

本研究采用汉语数据对词汇协同模型进行验证。数据分别从1998年1月的《人民日报》标注语料库和《现代汉语词典》(第5版)中提取。其中《人民日报》语料库是经过分词、标注的熟语料,包含3147篇文章,我们从中选取500篇,制作词表,提取多文度和频率。其中包含数字、字母的词不予收录,只计汉字词。《现代汉语词典》用于提取多义度和词长,上述词表中未收入该词典的词,因无法确定多义度,也不予收录。经上述处理,词表合计词例253100个、词形15565个。