汉语语法及应用研究
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

3 基于CCD词典隐喻推理的设计原理

CCD是北京大学计算语言学研究所在英文WordNet基础上开发的汉语双语语义词典[8]。CCD利用同义词集合(csynset)来表示概念(concept),每个集合标明一个词汇概念。例如,“老师”这个概念由{教员 教师 老师 先生 师长教官 教书匠 恩师 塾师 孩子头 孩子王}组成。CCD中词汇概念的语义关系主要包括:上下位、同义、反义、整体和部分、蕴含、属性、致使等多种语义关系。本文的隐喻推理就是借助CCD的同义词概念以及概念之间的语义联系来完成的。

隐喻推理的原则有以下几点:

第一,推理的原则首先要满足源域和目标域来自不同的概念域,同时隐喻内部相似性成立的情况下才能进行外部推理,即以源域和目标域映射的有效性为基础,这一原则的满足主要以训练语料中手工加工的标注隐喻样例为依据。

第二,推理的过程要遵守源域扩展源域,目标域扩展目标域的原则。

第三,扩展推理要在相同喻底的基础上进行,只有相同的喻底才具有推理的可能。例如“知识的海洋”和“生活的浪花”中“海洋、浪花”虽然都是表示自然现象的词语,但是“知识的海洋”表示知识的“多”和“大”,“生活的浪花”则表示生活中事件的“小”。两者表达的隐喻喻底完全不同,不具备推理的基础。不过,在CCD的同义词集合内,隐喻所表达的喻底往往是基本一致的。例如,“海洋”的同义词集合为:【大洋 海洋 大海 汪洋大海】。下面的实例所表达的喻底基本一致。

1)我们应该两栖,既能漫游于爱情之海,又能高攀于事业之峰。

2)强调文学是有形式的意味,则将把报告文学引向生活的大海。

3)今天的二毛,像一支强大的舰队,在市场经济的大海中昂首远航。

4)只有疏通这个源头,科技之水才能流进人民群众的汪洋大海。

由此本文对源域词语的推理基本限定在同义词集合内部,在源域确定后,目标域的推理完全可以不受这一条件限制,但是对于一个多层级的概念网络,目标域相似度推理到什么节点位置,推理过程中概念的层级如何确定是需要考虑的问题。对于n1+n2推理模式,本文经过多次实验,最后确定:

目标n【1-5】 ←→源n【0】

源n【0】表示源域的推理仅限定在同义词集合内。目标n【1-5】表示目标域推理可以考虑在1-5层的范围之内。推理的顺序是:在考察源域相同的情况下,再考虑目标域的相似性规律,总结隐喻推理规则,从而把隐喻研究向概念层级深入一步。