前言
自然语言是人类思维的载体和交流的基本工具,也是人类区别于动物的根本标志,更是人类智能发展的重要外在体现形式。自然语言处理(Natural Language Processing,NLP)主要研究用计算机理解和生成自然语言的各种理论与方法,属于人工智能领域的一个重要的甚至核心的分支。随着互联网的快速发展,网络文本规模呈爆炸性增长,为自然语言处理提出了巨大的应用需求。同时,自然语言处理研究也为人们更深刻地理解语言的机理和社会的机制提供了一条重要的途径,因此具有重要的科学意义。
自然语言处理技术经历了从早期的理性主义到后来的经验主义的转变。近十年来,深度学习技术快速发展,引发了自然语言处理领域一系列的变革。但是基于深度学习的算法有一个严重的缺点,就是过度依赖于大规模的有标注数据。2018年以来,以BERT、GPT为代表的超大规模预训练语言模型恰好弥补了自然语言处理标注数据不足的这一缺点,帮助自然语言处理取得了一系列的突破,使得包括阅读理解在内的众多自然语言处理任务的性能都得到了大幅提高,在有些数据集上甚至达到或超过了人类水平。那么,预训练模型是如何获得如此强大的威力甚至“魔力”的呢?希望本书能够为各位读者揭开预训练模型的神秘面纱。
本书主要内容
本书内容分为三部分:基础知识、预训练词向量和预训练模型。各部分内容安排如下。
第1部分:基础知识。包括第2~4章,主要介绍自然语言处理和深度学习的基础知识、基本工具集和常用数据集。
第2章首先介绍文本的向量表示方法,重点介绍词嵌入表示。其次介绍自然语言处理的三大任务,包括语言模型、基础任务和应用任务。虽然这些任务看似纷繁复杂,但是基本可以归纳为三类问题,即文本分类问题、结构预测问题和序列到序列问题。最后介绍自然语言处理任务的评价方法。
第3章首先介绍两种常用的自然语言处理基础工具集——NLTK和LTP。其次介绍本书使用的深度学习框架PyTorch。最后介绍自然语言处理中常用的大规模预训练数据。
第4章首先介绍自然语言处理中常用的四种神经网络模型:多层感知器模型、卷积神经网络、循环神经网络,以及以Transformer为代表的自注意力模型。其次介绍模型的参数优化方法。最后通过两个综合性的实战项目,介绍如何使用深度学习模型解决一个实际的自然语言处理问题。
第2部分:预训练词向量。包括第5、6章,主要介绍静态词向量和动态词向量两种词向量的预训练方法及应用。
第5章介绍基于语言模型以及基于词共现两大类方法的静态词向量的预训练技术,它们能够通过自监督学习方法,从未标注文本中获得词汇级别的语义表示。最后提供对应的代码实现。
第6章介绍基于双向LSTM语言模型的动态词向量的预训练技术,它们能够根据词语所在的不同上下文赋予不同的词向量表示,并作为特征进一步提升下游任务的性能。最后同样提供对应的代码实现。
第3部分:预训练模型。包括第7~9章,首先介绍几种典型的预训练语言模型及应用,其次介绍目前预训练语言模型的最新进展及融入更多模态的预训练模型。
第7章首先介绍两种典型的预训练语言模型,即以GPT为代表的基于自回归的预训练语言模型和以BERT为代表的基于非自回归的预训练语言模型,其次介绍如何将预训练语言模型应用于典型的自然语言处理任务。
第8章主要从四个方面介绍预训练语言模型最新的进展,包括用于提高模型准确率的模型优化方法,用于提高模型表示能力的长文本处理方法,用于提高模型可用性的模型蒸馏与压缩方法,以及用于提高模型应用范围的生成模型。
第9章在介绍语言之外,还融合更多模态的预训练模型,包括多种语言的融合、多种媒体的融合以及多种异构知识的融合等。
致谢
本书第1~4章及第9章部分内容由哈尔滨工业大学车万翔教授编写;第5、6章及第8、9章部分内容由美国麻省理工学院(MIT)郭江博士后编写;第7章及第8章主要内容由科大讯飞主管研究员崔一鸣编写。全书由哈尔滨工业大学刘挺教授主审。
本书的编写参阅了大量的著作和相关文献,在此一并表示衷心的感谢!
感谢宋亚东先生和电子工业出版社博文视点对本书的重视,以及为本书出版所做的一切。
由于作者水平有限,书中不足及错误之处在所难免,敬请专家和读者给予批评指正。
车万翔
2021年3月
读者服务
微信扫码回复:41512
• 获取本书配套代码和习题答案。
• 加入本书读者交流群,与更多读者互动。
• 获取【百场业界大咖直播合集】(永久更新),仅需1元。