金融知识图谱落地的关键
搜索目的明确、互联网数据属性强,是知识图谱技术的重要特征。推动知识图谱技术在金融行业落地的过程中,金融机构必须充分结合金融行业的数据特征及业务目标。知识图谱项目主要包括知识构建、知识计算、知识存储、知识应用,它们共同服务于金融机构的业务目标,如图5-3所示。
图5-3 知识图谱项目构成
知识构建:从海量文本到行业图谱
以知识图谱在搜索引擎中的应用为例。搜索引擎应用知识图谱时,其核心数据源是广泛分布在互联网中的各类文本数据,知识构建便是从这些文本数据中抽取属性、概念、实体、关系等,并进行数据的消歧、对齐与融合。
想要对这些数据进行搜集和处理,需要借助数据爬取、多源异构数据处理、分布式数据存储等技术,并且需要大量专业人才积极参与。例如,具备丰富专业知识和经验的业务专家,可以显著提高知识结构和数据模型的科学性。
通过知识构建,金融机构将得到包括基本实体、属性、显性关系在内的基础知识图谱。例如,金融机构在开发一个面向零售业务的金融产品时,利用知识构建可以得到一个包括企业和用户、企业和供应商、企业和物流等服务商的基本关系、资金往来关系、担保关系在内的知识图谱。
知识计算:行业知识的数学表达
知识计算的主要任务是对隐性关系和扩展属性进行计算,这也是展现知识图谱智能性的关键所在。此处仍以上面提到的开发面向零售业务的金融产品为例,通过知识计算,金融机构可以得到企业和用户、企业和供应商、企业和物流等服务商之间的集团关系、一致行动关系、实际控制关系等各种隐性关系,并生成相关规则和模型,为实现精准营销、强化自身的风控能力等提供支持。
知识计算需要自然语言处理、规则引擎、机器学习、图像挖掘等多种技术的支持,同时也需要数据科学家、工程师、行业专家等积极参与集中。为了对显性关系和隐性关系的相关性、完整性、一致性等进行验证,必须利用专家知识及定制化的知识计算方法来处理冲突、缺失及冗余内容。完成知识构建、知识计算后,金融机构将得到经过科学验证的完整知识图谱(同时包含显性知识和隐性知识),为后续知识存储及应用奠定良好的基础。
知识存储:知识应用的重要工程保障
知识存储阶段的主要任务并不局限于存储知识,它还能提高知识应用的效率、稳定性、精准性等,并对知识进行更新,以适应业务变化需求。
从技术选型角度看,无论传统的关系型数据库、Key-Value(键值)存储数据库,还是现代化的Neo4j数据库、AllegroGrap数据库、InfiniteGraph数据库等,都可以满足知识存储需要。知识图谱在金融领域的应用场景存在数据规模大、实体关系错综复杂的特征,所以,采用相对成熟的图形数据库技术是更为合理的选择。
在知识存储过程中,金融机构可以结合数据规模、应用规模、性能要求、整体IT架构等多种要素开展技术选型。
知识应用:搜索、业务应用和问答
知识应用的主要任务是满足使用者的搜索、处理业务等各种需要,是知识图谱完成价值变现的核心所在。谷歌公司将知识图谱应用到搜索引擎领域后,微软、百度、搜狗等国内外搜索服务商纷纷推出类似的产品和服务,经过多年的发展,搜索已经成为知识应用最具代表性的场景。
未来,随着知识图谱在搜索领域的应用日渐成熟,当人们输入“区块链在金融行业的应用”关键词时,搜索结果页面将不再只是显示含有该关键词的网页,而是会显示一系列可视化的实践案例,这对降低搜索时间成本、提高搜索质量具有重要影响。
在处理业务方面,知识应用不仅可以提高处理效率与质量,还能大幅度优化人机交互体验。目前,人机交互已经具备一定的技术基础,随着相关金融业务场景日趋成熟,问答式的人机交互将实现大规模推广与应用。
当银行业务员发现某行业出现新趋势后,他真正关心的并不是趋势本身,而是这个趋势可以给银行带来哪些市场机会,这些市场机会中又有哪些企业参与,这类企业的上下游企业和关联企业是哪些等。知识应用恰好可以回答这些问题,帮助银行业务员等金融从业人员为用户提供更优质的金融服务。