上QQ阅读APP看书,第一时间看更新
1.2.1 文本预处理
蜘蛛程序(Spider)抓取的数据在进行一定程度的预处理之后才能用于索引的建立。文本数据预处理主要是为了提取词语而进行的文本分析,而文本分析又可分为分词、语言处理等过程。
1.分词
文本分词过程通常分为三步:第一步,将文本分为一个个单独的单词;第二步,去除标点符号;第三步,去除停止词(Stop words)。停止词是语言中最普通的一些单词,它们的使用频率很高,但又没有特殊意义,一般情况下不会作为搜索关键词。为了减小索引的大小,一般将此类单词直接去除。为方便读者理解,下面举例说明,如图1-2所示。
图1-2 文本预处理
2.语言处理
语言处理主要对分词产生的词元进行相应语言的处理。以英文为例:首先将词元变为小写,然后对单词进行缩减。缩减过程主要有两种,一种被称为词干提取(Stemming),另一种被称为词形还原(Lemmatization)。词干提取是抽取词的词干或词根,词形还原是把某种语言的词汇还原为一般形式。两者依次进行相关语言处理,比如将books缩减为book(去除复数形式),将tional缩减为tion(去除形容词后缀)。词干提取采用某种固定的算法进行缩减。词形还原通常使用字典的方式进行缩减,缩减时直接查询字典,比如将reading缩减为read(字典中存在reading到read的对应关系)。词干提取和词形还原有时会有交集,同一个词,使用两种方式都会得到同样的缩减。接上面的举例,继续说明,如图1-3所示。
图1-3 语言处理