汉语语法及应用研究
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

4 CCD词典的消歧策略

由于多义现象,同一个源域或目标域词语,可能分属在CCD不同的概念节点上。例如:

花 [20]植物09_04555052 20_07986022 20_07986542

知识 [9]认知,知识03_00013243 09_04351370 09_04387608

在隐喻表达中“花”对应的是“[20] 植物、[9] 认知,知识”两个语义类中的节点,因此,在使用CCD之前必须要解决词义选择问题。本文做了大量考察,总结发现消歧规律,最后利用机器和人工相结合的方法对CCD进行了合理剪裁,保证了所有的词语只对应唯一的语义类。基于CCD的词义选择,这里称作“词典消歧”。

具体办法是首选“海洋、潮水、漩涡、港湾、泥沼”识别出来的隐喻例句,加工形成1个【源域】对应n个【目标域】隐喻映射词表,然后对5个词表中的所有目标域词语进行人工消歧,人工消歧词语共计138条。在人工消歧中目标域在CCD的概念节点的分布存在特定的规律,表现如下特点:

(1)隐喻表达中源域和目标域词语通常来自词语最基本的含义。

(2)目标域词语在CCD的概念节点中呈不均匀分布,往往有一个概念类最为突出。

如图1所示:

图1 “爱”在CCD中的概念分布

如果选择概念分布最多的枝叶,则往往就是本文要选择的类别。例如“爱”选择了“feeling”类。因此本文首选频次标准就可以把次要枝叶上的东西全部过滤掉。表2中是经过机器消歧后的词表,结果基本符合人们的认知。

表2 机器消歧

为了验证此项工作的可靠性,作者把机器消歧结果同先前经过人工消歧的138个词语进行比较,发现频次标准的消歧方法很有效果。比较结果见表3:

表3 机器消歧和人工消歧比较

本文通过对机器消歧的结果和正确答案的分析,最后得到自动消歧的正确率。上表的实验结果表明,机器的消歧准确率在97%以上。

机器的消歧方法只能做到类的排歧,还无法做到词义的消歧。不过类的消歧基本可以满足隐喻相似度推理的需要。通过这样的过滤,10万多的词条中最后只有5300多词条需要人工确定语义类。例如表4:

表4 人工消歧

经过机器自动消歧的每个词语后仍对应两个语义类,例如“人生”在CCD中有6个概念,分布在【congnition】【motive】【state】【time】4个语义类中,经过机器消歧后,【congnition】【motive】被排除,剩下【state】【time】两个类别,这时机器无法作出判断,需要人工消歧,最后人工选择【time】作为“人生”的类别。经过消歧后的词典可以做到一词一个语义类。后续的隐喻推理实验就是基于消歧后的CCD词典。