推荐序
自然语言处理的目标是使得机器具有和人类一样的语言理解与运用能力。在过去的十年里,自然语言处理经历了两次里程碑式的重要发展。第一次是深度学习的勃兴,使得传统的特征工程方法被摒弃,而基于深度神经网络的表示学习迅速成为自然语言处理的主流。第二次则是2018年以来大规模预训练语言模型的应用,开启了基于“预训练+精调”的新一代自然语言处理范式。每一次的发展都为自然语言处理系统的能力带来了巨大的进步。与此同时,这些令人欣喜的发展也带给我们很多关于语言智能的更本质的思考。由车万翔等人所著的《自然语言处理:基于预训练模型的方法》一书从预训练模型的角度对这两次重要的发展进行了系统性的论述,能够帮助读者深入理解这些技术背后的原理、相互之间的联系以及潜在的局限性,对于当前学术界和工业界的相关研究与应用都具有重要的价值。
本书包括三部分,共9章。书中从自然语言处理与神经网络的基础知识出发,沿着预训练模型的发展轨迹系统讨论了静态词向量、动态词向量,以及语言模型的预训练方法,还深入讨论了模型优化、蒸馏与压缩、生成模型、多模态融合等前沿进展,内容上兼具广度与深度。本书作者车万翔等人研发的语言技术平台LTP,是国内自然语言处理领域较早、影响力大且仍在不断发展完善的开源平台之一。LTP的“进化”历程也对应着作者对于自然语言处理不同时期范式变迁的思考与实践——从最初发布时使用的传统机器学习方法,到基于深度学习的多任务学习框架,再到近年来发布的基于预训练模型的统一框架。可以说,本书的问世是作者多年深耕于自然语言处理领域的自然结果。
本书的一大特色是含有丰富的实践内容。作者均为活跃在科研一线的青年学者,极具实战经验。书中为代表性的模型提供了规范的示例代码以及实践指导,这对于刚刚进入自然语言处理领域并热爱实践与应用的读者而言是一份难得的学习资源。
本书可以作为计算机科学、人工智能和机器学习专业的学生、研究者,以及人工智能应用开发者的参考书,也适合高校教师和研究机构的研究人员阅读。
孙茂松
欧洲科学院外籍院士
清华大学人工智能研究院常务副院长、计算机系教授