5 机器学习方法的隐喻识别
基于机器学习方法的要旨是由人先给一部分语料的隐喻短语加上标记,给机器提供样例或统计参数,然后借助于机器学习的算法使机器在一定程度上具备识别隐喻的功能。Zhimin Wang et al.(2006)利用最大熵方法进行了“海洋、泥沼、港湾、泥坑、潮水”5个词语的识别实验,实验表明运用机器学习方法进行隐喻识别的技术思路基本可行,而且还取得了较好效果。本文在最大熵实验的基础上,进一步研究了n+n模式。
最大熵模型的目标就是给定上下文c,计算出m的条件概率,即对p(m|c)进行评估,期望能够求出符合c条件下的m的概率分布,随机变量m表示当前词是否为隐喻表达,m有两种取值,【m=metaphor表示隐喻表达,m=no-metaphor表示字面表达】。
最大熵的条件概率可以用公式(1)计算:
其中,(2)是归一化因子。exp表示以e为底的指数函数,这里fi是模型的特征,λi是fi的参数,即每个特征函数的权值,特征fi是个二值函数,每个特征包含了上下文的各种信息。例如针对“知识的海洋”可以引入特征:
其中λi的参数值并不能直接得到解析解,需要通过迭代的方式,计算其近似值。目前,最广泛使用的有GIS迭代算法和IIS迭代算法。本文采用了GIS算法来实现,迭代次数为100。
模型训练所使用的特征包括两类:简单特征和辅助特征。简单特征就是“源域”出现的上下文词汇、词性特征,辅助特征包括左右位置信息、标点、停用词等信息。辅助特征是影响实验效果的重要因素。以源域“海洋”的左右位置信息为例:
左右
在知识的海洋中遨游 我们要利用海洋知识
在科学的海洋中 海洋科学探索
“知识”占据“海洋”的左侧为隐喻表达,例如“知识的海洋、科学的海洋”;“知识”占据“海洋”的右侧为非隐喻表达,例如“海洋知识、海洋科学”。隐喻和非隐喻分布通常有规律,这些规律是提高识别效果的关键。
此次实验选取了1998年1—4月《人民日报》标注语料作为训练样本,测试语料本文抽测了2001年《人民日报》2000个句子(仅包含95个源域词语)。95个源域词语如表3所示:
表3 95个源域词语示例
最大熵方法识别“n+n”模式时,窗口大小为(-2,+2),辅助特征采用左右位置信息、“的”字特征、标点符号等辅助特征。实验结果使用准确率P、召回率R和F值作为评测指标。“最大熵模型+辅助特征”测试结果如表4所示:
表4 最大熵模型+辅助特征测试
最大熵方法的n+n模式识别整体效果达到了74.44%,最大熵方法无须考虑规则的重重限定,也无须考虑规则的顺序。上下文所有的词语、词性都可以作为特征加入模型,在效率方面远远超出规则识别。识别效果不太高主要在于训练语料过少,因为从4个月标注语料中获得的训练语料只有2000多句。因此扩充标注语料规模或开展隐喻推理扩展将是提高隐喻识别的关键。下一步可以考虑引入概念词典建立词语的相似度推理,识别更多的隐喻表达。
例如训练语料中【鲜花/n的/u海洋/n】:
1)在/p 鲜花/n 的/u 海洋/n 和/c 凯歌/n 的/u 声浪/n 中/f , /w
希望能够识别出测试语料中【郁金香/n的/u海洋/n】、【白花/n的/u海洋/n】。
2)阿拉木图/ns 简直/d 成/v 了/u 郁金香/n 的/u 海洋/n。/w
3)这/r 是/v 松枝/n 和/c 白花/n 的/u 海洋/n , /w
这可以通过“鲜花”“郁金香”“白花”来自共同的语义大类建立相似性推理,进而识别“郁金香”“白花”的隐喻表达。由于篇幅原因,关于隐喻相似度推理的提高实验将在另文论述。
参考文献:
[1] 戴帅湘,2005,汉语隐喻分类识别的计算方法研究,厦门大学硕士学位论文。
[2] 蓝纯,2005, 《认知语言学与隐喻研究》,北京:外语教学与研究出版社。
[3] 束定芳,2000, 《隐喻学研究》,上海:上海外语教育出版社。
[4] 王雪梅,2005,基于机器理解的汉语比喻再归类研究,厦门大学硕士学位论文。
[5] 王治敏,2006,隐喻的计算研究与进展,《中文信息学报》第4期。
[6] 杨芸、周昌乐,2004,基于机器理解的汉语隐喻分类研究初步,《中文信息学报》第4期。
[7] 俞士汶,2003,语料库与综合型语言知识库的建设,《中文信息处理若干重要问题》,北京:科学出版社。
[8] 袁毓林,2004,容器隐喻、套件隐喻及相关的语法现象——词语同现限制的认知解释和计算分析,《中国语文》第3期。
[9] 张威、周昌乐,2004,汉语隐喻理解的逻辑描述初探,《中文信息学报》第5期。
[10] 周昌乐,2004,隐喻、类比逻辑与可能世界,《外国语言文学研究》第4期。
[11] Fass, D. C.met*: A Method for Discriminating Metonymy and Metaphor by Computer, Association for Computational Linguistics, 1991.
[12] Lakoff, G. Johnson, M. Metaphors We Live By. Chicago : University of Chicago Press, 1980.
[13] Ratnaparkhi, A. A maximum entropy model for part-of-speech tagging. In Proceedings of Conference on Empirical Methods in Natural Language Processing, University of Pennsylvania, 1996: 133-141.
[14] Zhimin Wang, Houfeng Wang, Han Shuang et al, Chinese Noun Phrase Metaphor Recognition with Maximum Entropy Approach, Seventh International Conference on Intelligent Text Processing and Computational Linguistics, 2006: 235-244.
(原载《语言教学与研究》2009年第3期)