知识图谱与认知智能:基本原理、关键技术、应用场景与解决方案
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

4.3.1 知识融合的流程

知识图谱开发者在对不同的数据源所生产的知识图谱三元组进行知识融合时,不可避免地会遇到知识体系与知识实例的缺失、冲突、歧义等问题。如果无法解决上述问题,企业业务知识图谱的需求概念、事理知识、实体状态就难以聚合。因此,企业需要以提升业务知识图谱覆盖度、准确度及上层业务应用效果为目标,建设对不同来源知识的融合能力。

比如在电影业务知识图谱的构建过程中,知识图谱开发人员需要从不同的数据源进行知识抽取。为获得电影名、明星、片场等实体知识,开发人员既可以从豆瓣、时光网、百度百科网页进行爬取,通过结构化知识抽取系统抽取电影的剧情介绍、主演等属性数据,还可以从电影院订票系统的数据库中抽取场次、票务等属性数据。当需要对《哥斯拉》这一电影名实体的知识进行融合时,就需要将歧义的《哥斯拉》动画片实体识别出来,并将《哥斯拉》电影实体的不同属性数据聚合。

因此,我们需要通过一套知识融合系统,将各个来源的知识整合。首先需要判断这些来源的“哥斯拉”是否指同一实体。如果是同一实体,则可以将它们的信息融合;如果不是同一实体(如上文提到的《哥斯拉》动画片),则不应该融合。从多源异构的知识图谱中,通过聚合、连接形成信息完整、数据正确的知识图谱,这一过程就是知识融合。知识融合的核心是知识体系(模式)与实体实例对齐,即将不同本体下的同一实体合并。

基于上述理论,图4-9展示了知识融合的整体流程,包括初始化融合增量融合融合过滤知识校验4个步骤。

(1)初始化融合:指通过聚类的方式构建实体的融合库。

(2)增量融合:指对新的实体与已经融合的实体进行相似度计算。

(3)融合过滤:指对已有的融合库进行审核、过滤和修复。

(4)知识校验:指根据知识来源的可信度进行评估和打分。

图4-9

知识融合需要在初始化融合、增量融合的过程中,实现从知识模式对齐与实例对齐的迭代,才能进入融合过滤流程。

回顾知识图谱本体融合的相关理论,解决本体语法不匹配、逻辑表示不匹配、概念化不匹配、概念描述不匹配等本体异构问题的通用方法是本体集成本体映射本体集成,指将多个本体合并为一个本体;本体映射则指寻找本体之间的映射规则,实现本体的转化。本体集成包括单本体集成及全局-局部本体集成,本体映射则包括发现映射、表示映射、使用映射三个层次。由此可见,知识图谱本体融合(知识体系融合)的核心是实现相似及相关本体搜索,并建立本体之间的映射与集成工作。

基于上述理论,图4-10进一步展示了知识融合的详细流程。在本体集成方面,知识融合需要自底向上完成属性对齐、概念对齐的知识模式的内部融合。而在本体映射方面,需要完成知识模式的概念链接和属性链接。在底层,知识融合需要通过实体对齐与实体链接,完成知识实例层的对齐与融合,比如将知识实例的属性值进行对齐与链接。

图4-10