![Python3网络爬虫宝典](https://wfqqreader-1252317822.image.myqcloud.com/cover/331/33831331/b_33831331.jpg)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
1.3 爬取下来的数据被用在什么地方
爬虫爬取下来的数据根据业务的不同以不同的形态呈现。例如,爬取求职网站上的招聘信息,出库后通过前端加工生成如图1-7所示的日期-岗位数量柱状图、如图1-8所示的趋势散点图,或如图1-9所示的编程语言雷达图,以便广大求职者做出更合理的选择。
![img](https://epubservercos.yuewen.com/141F12/18096061008240606/epubprivate/OEBPS/Images/txt001_12.jpg?sign=1739223902-fkIaa9ng2RkLeTmIi838Uxal7HcAfb9S-0-15ec4b452fc046b151da49ed759f9039)
图1-7 日期-岗位数量柱状图
![img](https://epubservercos.yuewen.com/141F12/18096061008240606/epubprivate/OEBPS/Images/txt001_13.jpg?sign=1739223902-X4giG9no3MjJlDerpmeXttjW2jHkNC8X-0-efafa38f2303ce99f179b09ac6c9fc5b)
图1-8 趋势散点图
![img](https://epubservercos.yuewen.com/141F12/18096061008240606/epubprivate/OEBPS/Images/txt001_14.jpg?sign=1739223902-ZnhuPHsEQ6Wl1B9xW8Mcd5QBc7YP5sdj-0-62f555cf8ba0eac6639a330f55be3479)
图1-9 编程语言雷达图
爬取不同平台上的新闻资讯信息,在进行去重处理后可以按照重要程度进行整理、排序,或者形成按照读者喜好进行推荐的资讯聚合平台,平台界面如图1-10所示。
![img](https://epubservercos.yuewen.com/141F12/18096061008240606/epubprivate/OEBPS/Images/txt001_15.jpg?sign=1739223902-HVXvT4UweAzd8RqiYvqV6UNDiOUUEjPR-0-5d06dbe7bc2ecc17765f1e59b28ba1f4)
图1-10 资讯聚合平台
爬取不同平台上的图片,根据图片内容和图片尺寸进行分类,可以形成提供下载服务的图片聚合平台,平台界面如图1-11所示。
![img](https://epubservercos.yuewen.com/141F12/18096061008240606/epubprivate/OEBPS/Images/txt001_16.jpg?sign=1739223902-cQnXiFvRTNF8yHPGFvO4qQtwRlYgVObj-0-adef264955ea970e558fe5c6b92e2529)
图1-11 图片聚合平台
爬取海量的文本,可用于深度学习中的语义分析训练,文字训练样本集如图1-12所示。
![img](https://epubservercos.yuewen.com/141F12/18096061008240606/epubprivate/OEBPS/Images/txt001_17.jpg?sign=1739223902-YGL0E3UqNzovLIws4irD9AOE5P32sq0z-0-76d95807e4dd48c774426f95377c05d2)
图1-12 文字训练样本集
爬取海量的图片,可用于深度学习中的图片内容识别训练,图片训练样本集如图1-13所示。
![img](https://epubservercos.yuewen.com/141F12/18096061008240606/epubprivate/OEBPS/Images/txt001_18.jpg?sign=1739223902-cihlExORSS69y2iefZsjOJ2aOibLrT9u-0-00da403c0e9d2feec918f2a6d306f8a0)
图1-13 图片训练样本集
爬取同业竞品的用户属性信息,整理后进行分类和统计,可制作出如图1-14所示的可视化图表,其将成为运营部门的重要参考资料。
![img](https://epubservercos.yuewen.com/141F12/18096061008240606/epubprivate/OEBPS/Images/txt001_19.jpg?sign=1739223902-1JSTo8nvhlEAkleYCI1wrpMKSwjHmx1u-0-1a0e9e63ff4df69b18a6e758c7fc7667)
图1-14 用户属性信息
爬取的数据还可形成即时展示关联信息的搜索引擎,图1-15所示为搜索结果的截图。
![img](https://epubservercos.yuewen.com/141F12/18096061008240606/epubprivate/OEBPS/Images/txt001_20.jpg?sign=1739223902-dH1n9Mw1EqC6JdMUqxswhkYWdsD27KGN-0-1766230a2c0b77bf1b28159b650bce44)
图1-15 搜索结果
从上面列举的例子中可以发现,爬虫程序与我们的生活紧密联系,有数据聚集的地方就有可能存在爬虫程序。