推荐序
图神经网络(Graph Neural Network,GNN)是近年来在传统深层神经网络基础上发展起来的一个新领域,也可以称之为图上的深度学习。20世纪末,基于传统人工神经网络的深度学习迅猛发展,深刻影响了各个学科,并促使基于数据驱动的第二代人工智能的崛起。尽管深度学习在处理大数据上表现出许多优势,但它仅能有效地处理欧氏空间的数据(如图像)和时序结构的数据(如文本),应用范围很有限。一方面,大量的实际问题,如社交网络、生物网络和推荐系统等都不满足欧氏空间或时序结构的条件,需要用更一般的图结构加以表示。另一方面,虽然深度学习可以处理图像、语音和文本等,并取得了不错的效果,但这些媒体均属分层递阶(hierarchical)结构,无论是欧氏空间还是时序结构都难给予充分的描述。以图像为例,在像素级上图像可以看成一个欧氏空间,但在其他视觉单元上,如局部区块、部件和物体等层次上并不满足欧氏空间的条件,如缺乏传递性或(和)对称性等。单纯的欧氏空间表示无法利用这些非欧氏空间的结构信息,因此也需要进一步考虑和探索图的表示形式。其他像语音与文本等时序结构的数据的处理也存在类似问题。综上所述,由于“图”(包括有环与无环、有向与无向等)具有丰富的结构,图神经网络将图论和深度学习紧密地融合在一起,充分利用结构信息,有望克服传统深度神经网络学习带来的局限性。可见,探索与发展图神经网络是必然的趋势,这也是它成为近年来在机器学习中发展最快和影响最深的研究领域的一个原因。
《图神经网络:基础、前沿与应用》一书系统地介绍了图神经网络的各个方面,从基础理论到前沿问题,从模型算法到实际应用。全书分四部分,共27章。
第一部分 引言:机器学习的效率不仅取决于算法,还取决于数据在特征空间中的表示方法。好的表示方法应该由数据中提取的最少和最有效的特征组成,并能通过机器学习自动获取,这就是所谓的“表示学习”(也称表征学习)。图表征学习的目标除给图中的节点指派一个低维的向量表征以外,还要求尽量保留图的结构,这是它和传统深度学习中的表征学习的重大差别。这一部分系统介绍了基于深度学习的表征学习与图表征学习的各种方法,其中包括传统和现代的图表征学习以及图神经网络等。
第二部分 基础:这一部分系统讨论了以下几个重要的基础问题。由于图神经网络本质上是深度学习在图中的应用,因此不可避免地具有深度学习带来的许多根本性缺陷,即在表达能力、可扩展性、可解释性和对抗鲁棒性等方面存在的缺陷。不过由于图神经网络与传统神经网络处理的对象有很大的不同,因此面临的挑战也有很大的区别,许多问题需要重新思考和研究。以表达能力为例,在传统神经网络中,我们已经证明前向神经网络可以近似任何感兴趣的函数,但这个结论不适用于图神经网络,因为我们通常假设传统神经网络(深度学习)所处理的数据具有空间或者时间的位移不变性。图神经网络所处理的数据更为复杂,不满足空间或时间的位移不变性,仅具有排列的不变性,即处理的结果与图中节点的处理顺序无关,因此图神经网络的表达能力需要重新定义与探索。尽管可扩展性、可解释性和对抗鲁棒性等同时存在于深度学习和图神经网络之中,但由于图神经网络中具有更复杂的结构信息,因此可扩展性、可解释性和对抗鲁棒性等问题变得更为复杂和困难。不过与此同时,由于有更多的结构信息可以利用,解决图神经网络中的这些问题则有更多可供选择的手段,因此有可能解决得更好。总之,图神经网络给我们带来挑战的同时也带来更多的机遇。
第三部分 前沿:这一部分系统介绍了图分类、链接预测、图生成、图转换、图匹配、图结构学习、动态图神经网络、异质图神经网络、自动机器学习和自监督学习中模型和算法的发展现状、存在的问题以及未来发展的方向。
第四部分 广泛和新兴的应用:这一部分讨论图神经网络在现代推荐系统、计算机视觉、自然语言处理、程序分析、软件挖掘、药物开发中生物医学知识图谱挖掘、蛋白质功能和相互作用的预测以及异常检测和智慧城市中的应用。这一部分包括应用图神经网络的方法、已达到的效果、存在的问题以及未来的发展方向等。
这是一本内容丰富、全面和深入介绍图神经网络的书籍,对于所有需要了解这个领域或掌握这种方法与工具的科学家、工程师和学生都是一部很好的参考书。对人工智能来说,图神经网络有可能是将概率学习与符号推理结合起来的一种工具,有可能成为将数据驱动与知识驱动结合起来的一座桥梁,有望推动第三代人工智能的顺利发展。
张钹
清华大学教授,中国科学院院士