基于深度学习的自然语言处理
上QQ阅读APP看书,第一时间看更新

1.6 本章小结

在本章中,我们学习了自然语言处理是如何让人类和机器用人类自然语言交流的。自然语言处理有三种广泛的应用,它们是语音识别、自然语言理解和自然语言生成。

语言是一件复杂的事物,因此文本在对机器有意义之前需要经历几个阶段。这种过滤过程被称为文本预处理,包括各种服务于不同目的的技术。它们都依赖于任务和语料库,并为操作准备文本,使其能够被输入到机器学习模型和深度学习模型中。

由于机器学习模型和深度学习模型最适用于数值数据,因此有必要将预处理后的语料库转换成数值形式。这就是词嵌入入场的时候。它们是单词的实值向量表示,有助于模型预测和理解单词。用于生成词嵌入的两种主要算法是Word2Vec和GloVe。

在下一章中,我们将在已建立自然语言处理算法的基础上,介绍和解释词性标注和命名实体识别的过程。