自然语言处理:基于预训练模型的方法
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.5 小结

本章首先介绍了词的向量表示方法,从传统的独热向量表示、分布式向量表示到最新的词向量和词袋表示。然后,介绍了传统的N元语言模型,分词、词性标注等自然语言处理基础任务,其中以BPE为代表的子词切分经常被用于现代的预训练语言模型中。接着,简单介绍了信息抽取、情感分析等自然语言处理应用任务。以上任务看似纷繁复杂,但是基本可以归纳为三类问题,即:文本分类、结构预测和序列到序列问题,并可以使用相应的模型加以解决。最后,介绍了如何评价一个自然语言处理任务。

习题

2.1 基于规则与基于机器学习的自然语言处理方法分别有哪些优缺点?

2.2 如何在词的独热表示中引入词性、词义等特征?请举例说明。

2.3 奇异值分解方法是如何反映词之间的高阶关系的?

2.4 在使用式(2-18)计算困惑度时,如果其中的某一项概率为0,如何处理?

2.5 若使用逆向最大匹配算法对句子“研究生命的起源”进行分词,结果是什么?是否可以说明逆向最大匹配算法要优于正向最大匹配算法?

2.6 2.2.2节介绍的子词切分算法是否可以用于中文?若能应用,则与中文分词相比有哪些优缺点?

2.7 是否可以使用序列标注方法解决句法分析(短语结构和依存两种)问题?若能使用,则如何进行?

2.8 使用何种评价方法评价一个中文分词系统?并请编程实现该评价方法。


[1] 原文:You shall know a word by the company it keeps.

[2] 也有论文中使用<s>等标记表示句首,使用</s>、<e>等标记表示句尾。

[3] 当模型较为复杂(例如使用了平滑技术)时,在测试集上反复评价并调整超参数的方式会使得模型在一定程度上拟合了测试集。因此在标准实验设置中,需要划分一个额外的集合,以用于训练过程中的必要调试。该集合通常称为开发集(Development set),也称验证集(Validation set)。

[4] 不同标注规范定义的词性及表示方式不同,本书主要以中文宾州树库(Chinese Penn Treebank)词性标注规范为例。