1.1 知识图谱的起源与发展
2012年5月16日,Google公司通过官方微博正式发布一款搜索页面的新功能——知识图谱(Knowledge Graph, KG),与语音控制、Google Now助手并称Google的三大实质性科技突破。Google知识图谱背后是庞大的信息库,致力于打破“乔治·布尔式的搜索囚牢”,将搜索引擎从关键词中解放出来,并在搜索页面右栏集成更直接的答案。在Google浏览器上搜索“约瑟夫·拜登”,将得到拜登的孩子、夫人、生日、教育背景等附有简介的链接地址。Google知识图谱雏形源于Metaweb公司,通过抓取和解析维基百科,以及使用类似维基百科的多来源数据并在数据间建立联系,发展出有别于传统关键词搜索的技术。知识图谱一经推出,便迅速在业界和学术界普及,受到众多领域的关注,形成了从数据获取、特征抽取、对象解析、关系解析、图谱构建到图谱存储与管理的知识图谱机制,支持智能检索、智能问答、数据分析、知识管理等应用场景。
知识图谱的思想可追溯到20世纪五六十年代由Quillian所提出的一种知识表达模式——语义网络(Semantic Network)[1],经历了“语义网络—语义网(Semantic Web)[2]—关联数据(Linked Data)[3]—知识图谱”的演变历程。语义网络由相互连接的节点和边组成,节点表示概念或对象,边表示它们之间的关系,如is-a关系、part-of关系等。它的特点在于容易理解和展示,且在相关概念的聚类上具有明显优势,可以很方便地将自然语言的句子用图来表达和存储,用于机器翻译、问答系统和自然语言理解。以语义网络为基础的典型应用有WordNet、BabelNet、HowNet等通用知识库。语义网和关联数据是万维网之父Tim Berners Lee分别于1998年和2006年提出的,本质上与Web 3.0概念相同,指万维网联盟W3C制定的用于描述和关联万维网数据的一系列技术标准——语义网技术栈。相对于语义网络,语义网和关联数据倾向于描述万维网中资源、数据之间的关系,语义网是一个使网络上的数据变得机器可读的通用框架,而关联数据则强调在不同的数据集间创建链接,是最接近知识图谱的概念,正如Jeff Z. Pam等在Exploiting Linked Data and Knowledge Graphs in Large Organizations中描述的一样,“知识图谱:以实体为中心的关联数据视图”(Knowledge Graph:An Entity-Centric View of Linked Data)[4]。与以上诸多早期形态相比,知识图谱在规模、语义丰富度、质量和结构友好性等方面更具优势,这也是知识图谱最核心的价值之一。
目前,知识图谱尚无统一标准的定义,部分研究学者将它看成一种具有有向图结构的语义网络知识库,旨在用图模型来描述知识和建模世界万物之间的关联关系,由节点和边组成,是表征事物关系的可计算模型,以关系三元组的形式提供实体间丰富的关系信息。其价值在于从数据中识别、发现和推断事物与概念之间的复杂关系,用于改善现有的信息获取方式,即通过推理实现概念检索并将经过分类整理的结构化知识以直观的图形化方式展示给用户。部分学者认为,知识图谱是人工智能时代最重要的知识表示方式之一,能够打破不同场景下的数据隔离,为搜索、推荐、问答、解释与决策等应用提供基础支撑。还有部分学者将知识图谱理解为互联网和大数据时代催生的大数据知识工程,沿革源于符号主义的传统知识工程。也许其定义角度和今后的发展还有很多不确定性,但不可否认的是,作为近几年在大数据时代下新颖的知识组织与检索技术,知识图谱在知识组织和可视化展示方面的优势逐渐显现,正在改变着人们获取信息和知识的方式,基于知识图谱的数据分析也有望成为一种新的基础设施,用于支持智慧农业、精准医疗、学习分析等应用[5]。
迄今为止,知识图谱研究主要涉及两种形态:语义网领域提出的基于资源描述框架(Resource Description Framework, RDF)三元组存储的语义知识图谱(也被部分研究者称为关联数据)和数据库领域发展出的基于属性图数据库的广义知识图谱(以Google知识图谱为代表)。从使用范围来看,知识图谱又分为通用知识图谱和领域知识图谱,其中,通用知识图谱包括以Cyc、WordNet等早期知识库项目为代表的常识性知识图谱(Common Sense Knowledge Graph),以及以Google、Microsoft等商用图谱和DBpedia、Yago等开放域知识图谱为代表的百科类知识图谱(Encyclopedia Knowledge Graph)。
国内外部分典型广义/通用知识图谱如表1-1所示。
表1-1 国内外部分典型广义/通用知识图谱
(续表)
其中,Google知识图谱包含数亿个条目,支持新一代语义检索模式,使得搜索超越搜索词本身,进入由各种实体、实体的属性和实体的相互关系所组成的世界,呈现事实、问题回答等多元化搜索结果;Bing Satori汇集了TED讲座、著名演讲、在线课程、大学资料、科学知识、历史事件、动物种类等数据,用于增强Bing系统的搜索服务能力;搜狗知立方是国内搜索引擎行业中首家知识库搜索产品;百度“知心”从行业维度出发,通过搜索请求智能化地判断所属垂直行业,并推送按该行业属性整合后的内容、产品、服务给用户。