Python网络爬虫从入门到精通
上QQ阅读APP看书,第一时间看更新

3.1 urllib简介

在Python2中,有urllib和urllib2两种模块,都是用来实现网络请求的发送。其中urllib2可以接收一个Request对象,并通过这样的方式来设置一个URL的Headers,而urllib则只接收一个URL,不能伪装用户代理等字符串操作。在Python3中将urllib与urllib2模块的功能组合,并且命名为urllib。在Python3中的urllib模块中包含了多个功能的子模块,具体内容如下。

 urllib.request:用于实现基本HTTP请求的模块。

 urllib.error:异常处理模块,如果在发送网络请求时出现了错误,可以捕获异常进行异常的有效处理。

 urllib.parse:用于解析URL的模块。

 urllib. robotparser:用于解析robots.txt文件,判断网站是否可以爬取信息。