1.3 知识图谱的价值
1.3.1 知识图谱支持语义搜索
知识图谱有什么用处呢?知识图谱源于互联网,所以第一个落地的应用当然也是互联网搜索引擎。前面已经介绍过,谷歌在2012年推出知识图谱支持的新搜索引擎时,提出的口号是“Things, Not Strings!”。Web的理想是链接万物,搜索引擎最终的理想是能直接搜索万事万物,这是非常朴素且简单的理念。知识图谱支持的事物级别而非文本级别的搜索,大幅度提升了用户的搜索体验。因此,当前所有的搜索引擎公司都把知识图谱作为基础数据,并成立独立部门持续建设。
1.3.2 知识图谱支持智能问答
知识图谱的第二类应用是智能问答,比如天猫精灵、小米小爱和百度度秘等背后都有知识图谱数据和技术的支持。智能问答本质就是一种对话式的搜索,相比普通的搜索引擎,智能问答更加需要事物级的精确搜索和直接回答。智能厨房、智能驾驶、智能家居等都需要实现这种对话式的信息获取。
当前,实现智能问答功能主要有三种形式,第一种是问答对,这种实现简单的建立问句和答句之间的匹配关系,优点是易于管理,缺点是无法支持精确回答。第二种形式要求给定问句就能直接从大段文本中准确地定位答案,虽然这是终极期望的形式,但源于语言理解本身的困难,比较难于完全实用。第三种是知识图谱,相对于纯文本,从结构化的知识图谱中定位答案要容易得多,同时比起问答对形式,因为答案是以关联图的形式组织的,所以不仅能提供精准答案,还能通过答案关联,非常便利地扩展相关答案。
1.3.3 知识图谱支持下的推荐系统
推荐系统也是知识图谱的典型应用场景。例如,在电商的推荐计算场景中,可以分别构建User KG和Item KG。知识图谱的引入丰富了User和Item的语义属性和语义关系等信息,将大大增强User和Item的特征表示,从而有利于挖掘更深层次的用户兴趣。关系的多样性也有利于实现更加个性化的推荐,丰富的语义描述还可以增强推荐结果的可解释性,让推荐结果更加可靠和可信,如图1-11所示。
图1-11 知识图谱增强推荐系统的可解释性
1.3.4 知识图谱辅助语言语义理解
知识对于正确理解语言至关重要,所以自然语言处理领域也是拥抱知识图谱最多的领域之一。正如第一个自然语言理解系统SHRDLU作者Terry Winograd指出的,当一个人听到或看到一句话时,他使用自己所有的知识和智能去理解。这不仅包括语法,也包括他的词汇知识、上下文知识,更重要的是对相关事物的理解。
Winograd Schema Challenge是人工智能领域有关常识推理的竞赛。这个竞赛出了很多这种题目,如图1-12所示,在第一例子中,让机器阅读一句话,然后要求机器判断其中的it是指代the trophy还是the suitcase。此外,还要求机器把句子中的big换成反义词small之后,能够正确地选择相反的答案。这在自然语言理解中称为指代消解问题,但发现机器基本和瞎猜差不多。这是因为单纯从句子的字面意思来看,不论怎么统计、计算和匹配,都没有关于trophy和suitcase的空间大小的信息,机器自然无法做出判断。人类可以迅速地做出正确的判断,这是因为人在判断时引入了大脑中的常识知识,即:trophy通常是被装入suitcase携带的,所以suitecase肯定要比trophy大。在后面的章节中,会专门介绍在自然语言处理模型中植入知识图谱的方法。
图1-12 语言理解对外源知识的依赖
1.3.5 知识图谱扩展视觉理解的深度和广度
知识图谱对于凡是涉及语义理解的任务都有作用。除了文本语义的理解,在图像、视频等视觉理解任务中,知识图谱也能发挥作用。如图1-13所示,我们看到一只海鸟,图片本身所包含的信息显然是有限的。如果能引入知识图谱中关于海鸟的语义描述、关联的其他鸟等,就能大幅增强图片处理的深度和广度。比如,可以利用外源知识库中相关的鸟类信息来提升相似图片的检索效果。
图1-13 知识图谱扩展视觉理解的深度和广度示例
1.3.6 知识图谱辅助IoT设备互联
语义和知识在物联网领域有很多的应用场景。OneM2M是物联网领域的一个国际联盟,它有一个独立的工作组,专门为物联网设备数据定义本体。这些物联网本体被用来封装设备数据的语义,从而提升物联设备之间的语义互操作能力。
例如,一个温度可能是人的体温,也可能是一个设备的温度,进一步理解这个温度数据还需要知道是在什么时间、什么位置等,丰富的语义描述将大大提升物联设备数据的利用效率,终极的万物互联是设备通过规范化的语义实现数据层面的互联,如图1-14所示。
图1-14 IoT设备数据的本体抽象与语义封装
1.3.7 知识图谱支持下的大数据分析
知识图谱也在大数据分析应用中发挥重要作用。著名的情报大数据公司PALANTIR有一个核心技术叫动态本体(Dynamic Ontology),它允许数据分析人员根据自己的需要来定制构建一个本体。例如在一个反恐场景中,需要定义恐怖分子、恐怖事件和高危区域等基本概念以及它们之间的语义关系。
PALANTIR再通过机器学习算法和自然语言处理技术从各种数据来源获取信息并灌入本体中。事实上,很多领域的大数据分析问题并不需要构建很复杂的算法模型,如果能根据分析的需要构建一个知识图谱,大部分大数据分析问题都可以转化为一个知识图谱上的查询问题。当然,有了图结构的数据,也可以更加容易地在知识图谱上叠加各种图算法,例如图嵌入算法、图神经网络等。这些算法利用知识图谱中存在的关系进一步挖掘和推理未知的关系,从而大幅提升数据分析的深度和广度。
知识图谱技术源于互联网,最早落地应用的也是搜索引擎、智能问答和推荐计算等领域。知识图谱支持通过规范化语义集成和融合多源数据,并能通过图谱推理能力支持复杂关联大数据的挖掘分析,因此在大数据分析领域也有广泛应用。对于语言理解和视觉理解,外源知识库的引入可以有力地提升语义理解的深度和广度。