名词隐喻相似度及推理识别研究

1 引言

隐喻扩展推理是隐喻识别和理解的重要手段。Gentner[1][2]利用了隐喻和推理的相似性，构建了结构映射理论。Martin[3]利用相似度扩展技术，通过计算新生隐喻和已知相关隐喻的概念距离，识别和发现新生隐喻。Mason[4]利用WordNet语义资源，通过大规模语料库的领域优先学习算法来识别常规隐喻表达。汉语隐喻的计算研究处于起步阶段，可以见到的文献不多，主要倾向于隐喻逻辑推理方面的探索[5][6]。

Wang et al.[7]利用最大熵和实例方法识别和发现汉语名词隐喻表达，取得了较好效果，但是其实验只限于单个词语，如何在训练语料有限的情况下，识别更多的隐喻模式是值得探讨的问题。因此，本文在此基础上扩展规模，尝试利用隐喻相似度推理、词典信息等多种方法实现n+n隐喻表达的识别。

本文的n+n隐喻就是指由名词充当源域和目标域的隐喻表达，例如：

1）科学的春风开始吹拂神州大地。

2）每一个病人心里都扬起了生命的风帆。

这里源域“春风、风帆”一般是由具体事物的名词充当，和它们共现的目标域“科学、生命”一般由抽象名词充当。由于源域和目标域在某一点上存在相似性，因此形成“n1的n2”这种隐喻表达，它们在形式上也可以实现明喻“n2如n1”的转换。例如：科技如春风一样，生命如风帆一样。

由于这些源域词语在《现代汉语词典》中没有专门的隐喻描述，识别难度较大，计算机只能利用隐喻自身特点以及隐喻产生的上下文环境进行处理。因此探索隐喻的相似性，实现隐喻扩展也是提高隐喻识别效果的关键。