1.2.1 文本预处理_自制AI图像搜索引擎-QQ阅读男生中文都市网

上QQ阅读APP看书，第一时间看更新

1.2.1 文本预处理

蜘蛛程序（Spider）抓取的数据在进行一定程度的预处理之后才能用于索引的建立。文本数据预处理主要是为了提取词语而进行的文本分析，而文本分析又可分为分词、语言处理等过程。

1．分词

文本分词过程通常分为三步：第一步，将文本分为一个个单独的单词；第二步，去除标点符号；第三步，去除停止词（Stop words）。停止词是语言中最普通的一些单词，它们的使用频率很高，但又没有特殊意义，一般情况下不会作为搜索关键词。为了减小索引的大小，一般将此类单词直接去除。为方便读者理解，下面举例说明，如图1-2所示。

图1-2 文本预处理

2．语言处理

语言处理主要对分词产生的词元进行相应语言的处理。以英文为例：首先将词元变为小写，然后对单词进行缩减。缩减过程主要有两种，一种被称为词干提取（Stemming），另一种被称为词形还原（Lemmatization）。词干提取是抽取词的词干或词根，词形还原是把某种语言的词汇还原为一般形式。两者依次进行相关语言处理，比如将books缩减为book（去除复数形式），将tional缩减为tion（去除形容词后缀）。词干提取采用某种固定的算法进行缩减。词形还原通常使用字典的方式进行缩减，缩减时直接查询字典，比如将reading缩减为read（字典中存在reading到read的对应关系）。词干提取和词形还原有时会有交集，同一个词，使用两种方式都会得到同样的缩减。接上面的举例，继续说明，如图1-3所示。

图1-3 语言处理

本周热推：

MATLAB 2015从入门到精通 3ds Max动漫游戏角色设计实例教程 Midjourney AI案例实操：摄影+服装+电商产品 Illustrator CC中文版基础教程板绘教室：SAI零基础日系动漫插画入门教程