Python自然语言理解:自然语言理解系统开发与应用实战
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.5.3 垃圾邮件与网络钓鱼检测

垃圾邮件检测是另一个非常有价值的分类应用程序,其目标是将电子邮件分类为用户想要浏览的正常邮件和应该丢弃的垃圾邮件。这个应用程序不仅实用,而且具有挑战性,因为垃圾邮件发送者不断尝试规避垃圾邮件检测算法。这意味着垃圾邮件检测方法必须随着创建垃圾邮件方法的发展而发展。例如,垃圾邮件发送者经常拼错一些可能代表该邮件是垃圾邮件的关键词,比如用数字1替换字母l,或用数字0替换字母o。虽然这种拼写错误的单词对人类阅读没有影响,但它与计算机寻找的关键词将不再匹配,因此必须开发垃圾邮件检测方法来发现这些小把戏。

与垃圾邮件检测密切相关的是检测恶意文本消息,恶意文本消息或者包含试图攻击用户的信息,或者包含恶意链接或文档,一旦用户点击这个链接或打开这个文档,恶意软件就会加载到计算机系统中。在大多数情况下,垃圾邮件只是令人讨厌,但网络钓鱼更严重,因为如果用户点击了一个网络钓鱼链接,则可能会产生极具破坏性的后果。因此,任何提高网络钓鱼信息检测的方法都是非常有益的。