自然语言处理:基于预训练模型的方法
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第1章 绪论

本章首先介绍了自然语言以及自然语言处理的基本概念,并总结了自然语言处理所面临的8个难点,即语言的抽象性、组合性、歧义性、进化性、非规范性、主观性、知识性及难移植性。正是由于这些难点的存在,导致自然语言处理任务纷繁复杂,并产生了多种划分方式,如按照任务层级,可以分为资源建设、基础任务、应用任务及应用系统四个层级;按照任务类型,可以分为回归、分类、匹配、解析及生成五大问题;按照研究对象的不同,可以分为形式、语义、推理及语用分析四个等级。从历史上看,自然语言处理经过了将近60年的发展,期间经历了理性主义和经验主义两大发展阶段。其中,经验主义又被分成了基于统计模型、深度学习模型及最新的预训练模型三个阶段,尤其是“预训练+精调”的方式,已成为自然语言处理的最新范式。