1.2 研究背景
目前,国内外有几个比较有代表性的对NLP有一定实用价值的语义知识库。
WordNet:创建始于1985年,由美国普林斯顿大学研制,含207016个概念,词性有名词、动词、形容词、副词,语种为英语,语义描述内容主要为同义词集合、概念层级关系,构建方式为手工构建。
MindNet:创建始于1993年,由美国微软公司研制,规模为15.9万词,词性有名词、动词、形容词,语种为英语和日语,语义描述内容主要为语义关系描述,构建方式为自动构建。
ILD:创建于1993—1996年,由英国剑桥大学、爱丁堡大学等研制,语种为英语,语义描述内容主要为语义分类、语义特征、语义角色与选择限制等,构建方式为手工构建。
FrameNet:创建始于1997年,由美国加州大学研制,规模为825个框架、10000多词、135000条带有语义标注信息的例句,词性有名词、动词、形容词、介词,语种为英语,语义描述内容主要为以框架语义学为基础,描述框架、框架元素、配价模式、框架—框架关系,构建方式为手工构建。
HowNet:创建始于1988年,由董振东等研制,规模为81062汉语词、76526英语词、95690汉语义项、95935英语义项、24089概念、记录总数156442个,词性有名词、动词、形容词,语义描述内容主要为义原分析、语义角色、语义关系描述,构建方式为手工构建。
现代汉语述语动词机器词典:创建于1990—1993年,由人民大学、清华大学研制,规模为1000多动词、3000多义项,语种为汉语,语义描述内容主要为格理论、格、格位,构建方式为手工构建。
CCD:创建始于2000年,由北京大学研制,规模为近6万个概念,语种为汉、英双语,语义描述内容主要为类似WordNet的语义知识表述框架,构建方式为手工构建。
目前语义分析方法基本可以概括为两种。一种是在句法关系链上添加相应的语义关系标签,例如,Propbank是在Penn TreeBank句法分析的基础上,对与动词有关的语义角色进行标注,包含50多个语义角色类型;汉语方面,如李涓子等的依存语义分析、中国台湾的中文句结构树资料库(Sinica Treebank),利用几十个语义角色,在句法关系链上添加语义标签。这种方法最大的缺点是没有概念的抽象化表达,不能表示隐含意义,以致无法像人理解语言那样依据认知经验进行一定的推理。另一种比较有代表性的语义分析方法是Schank的概念依存理论(Conceptual Dependency, CD),利用少数几个概念表达丰富的语言意义,并描述了脚本和计划,虽然推理能力很强,而且已经有吴蔚天的《汉语计算语义学》和汉语机译系统可供参考,但对汉语来说,始终是停留在高度抽象的概念表达上,使得研究者对自然语言的语义表示深度、语义表示标准很难把握,总之,没有词一级的语义知识库,要实实在在地分析出语言的意义是不行的。
分析以上所列出的语义知识库,其中,有的主要提供了词语之间简单的同义、同类关系,对于事件—角色这种句义组合关系,几乎没有涉及,如WordNet、CCD;有的虽涉及一部分组合性质,但基于目前的完备程度,还远远不能满足语义分析的需要,如HowNet、现代汉语述语动词机器词典。要想满足自然语言处理的应用需要,如问答系统、信息抽取等,必须模拟人理解语言的认知机制,具备一定的推理能力,要求语义知识库对概念进行抽象化表达,建立事件与事件或者事件与状态之间的多种联系,这一点只有FrameNet提出了明确的目标,而且有可能完成这个目标。
FrameNet是以经验主义语义学——框架语义学为基础的,该理论认为,要理解词语的意义,就必须首先具备概念结构,即框架(Frame)的知识,框架是由词语在语言使用者大脑中所激活的图式化的认知情境,是理解和使用语言的背景和动因,情境中的各种核心和外围的参与者称为框架元素(Frame Element)。词语通过其所在的语言结构,按照一定的原则和方式选择和突出框架的某些方面。人们使用这些词语造句时,往往只突出框架的某些方面,如“小王在看书”,只提到了两个框架元素:小王、书。但是,根据其背景框架,人们仍然可以理解为“小王在用眼睛看书”,换句话说,有些框架元素在语句中采用的是隐性表现形式。所以,框架知识还揭示了句子表层所隐含的内容,这种隐含信息对于计算机理解自然语言是不可缺少的,框架及其语义描述体系符合人类认知过程,能够反映人类语言知识的组织方式。不仅如此,FrameNet还构建了13.5万的语义标注例句库,详尽描绘了词汇的框架语义知识在真实语句中的实现情况,这就使得这个语义知识库可以直接应用于自动语义标注软件的研究。
许多国家的学者通过研究都承认FrameNet数据可以跨语言使用,有通用价值,中文也尝试建立与FrameNet并行的词典。山西大学从2004年开始,参考英语的相关研究,以FrameNet为参照、以汉语语料事实为依据,结合汉语的特点和汉语研究的现状,研究构建汉语框架网络工程(Chinese FrameNet, CFN),并利用已有的各种句法、语义知识,研究CFN的自动句法语义角色标注任务。框架语义学和伯克利FrameNet数据库是构建现代汉语框架语义知识库的直接基础,将在第2章详细介绍。