知识图谱:面向科技文献的构建技术与应用实践
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.3.1 Springer Nature SciGraph

作为世界领先的研究、教育和专业出版商,施普林格·自然(Springer Nature, SN)推出的关联开放数据SciGraph主要目标是通过整合众多来源(数据库、API、zip文件等)的传统出版格式(如PDF、TIFF、HTML、ePub、XML等)全领域内容资源,如科研项目、科研机构、出版物、会议等(其他如引用、专利、临床试验等数据将分阶段推出),为学术出版领域构建关联数据知识图谱,实现数据关联、互操作和数据挖掘等功能,增加出版内容的可发现性和价值,最终为研究人员、作者、图书管理员、数据科学家、资助者等一系列科研活动主体提供开放关联数据工具和服务。SN SciGraph项目始于Springer和Nature合并之后,以NPG Linked Data、Nature Ontologies为原型,继承和复用VoID(Vocabulary of Interlinked Datasets)、VANN(Vocabulary for Annotating Vocabulary Descriptions)等通用词表及SKOS(Simple Knowledge Organization System),基于nature.core核心本体构建SciGraphCore ontology,采用schema.org描述规范将领域模型和书目数据(期刊、论文、图书、协议等)统一起来,汇聚整合成规模超过15亿个RDF三元组的第三方关联数据集,并与书目本体(Bibliographic Ontology, BIBO)、出版需求工业标准元数据(The Publishing Requirements for Industry Standard Metadata, PRISM)、VIVO-ISF(Integrated Semantic Framework)本体、DBpedia等之间建立主题词或类和属性的映射关系,支持语义检索、动态语义发布及丰富的Web元数据获取,是学术领域最大的关联开放数据聚合平台。

SN SciGraph包含期刊、论文、专著、专著章节、机构、资助者、经费、专利等核心类,其中专利类需要通过子类模式(作为schema:CreativeWork子类)创建一个特别的实体类型,其余类对应schema.org站点上指定的词汇及语义。SN SciGraph数据模型与组成如图1-15所示,以JSON-LD格式的RDF集形式进行发布,可为用户提供按文件类型下载的服务。

图1-15 SN SciGraph数据模型与组成

SN SciGraph关联数据发布与查询平台根据文献类型分类给出列表查询结果,基于每条结果提供多元化详情、标识符、图谱可视化、返回的JSON-LD数据片段、三元组等。图1-16展示了以“quantum computing”为检索词的查询结果,包括检索结果列表界面和可视化界面。数据获取方面,SN SciGraph的授权许可协议采用通用的知识共享许可协议。

图1-16 以“quantum computing”为检索词的查询结果