上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
第3章 灾害大数据定向爬取技术
3.1 定向爬取技术的研究背景与问题分析
面对海量的互联网灾害大数据,精准地爬取与灾情相关的数据,将会对灾后救援产生重要的影响。由于数据爬取是后续数据挖掘、分析与决策的前提[1],因此如何高效、精准地爬取与主题相关的数据已经成为研究热点。传统的通用爬取方法,其结果通常考虑广泛性而忽略了针对性,如Baidu和Google等商业搜索引擎的爬取结果[2]。与面向特定领域的主题搜索引擎相比,通用爬取方法的针对性较弱,在爬取结果的过滤和后期相关度的排序等方面还有待提高。定向爬取技术的核心问题是如何通过算法来提高爬取结果的准确率,尽可能多地采集与主题相关的网页数据。目前,灾害大数据定向爬取技术主要存在以下问题:
(1)当前的采集器通过主题与网页数据相关度的判定,只有当相关度大于设定的阈值时,才保存相关的网页数据。这种方法的效率比较低,爬取结果的准确率也不高,难以实现对与主题相关的网页数据的准确爬取。
(2)基于链接结构的主题爬取算法主要是判定待爬取的链接与主题的相关度,基于链接的判定算法不仅容易造成“主题漂移”的现象,而且也容易忽略链接的相关反馈信息。
(3)目前的分布式定向爬取系统,节点之间需要进行频繁的通信,系统的可扩展性差。
为了解决上述问题,本章重点介绍了灾害数据采集算法的相关知识,具体内容包括以下几点:
(1)在分析数据爬取算法的基础上,详细介绍了一种面向网络数据定向爬取的自适应爬取算法(Adaptive Crawling Algorithm,ACA)[3]。
(2)详细介绍了ACA的原理和执行流程。
(3)通过实验对ACA进行验证与性能分析,证明ACA在爬取数据的准确率方面优于贝叶斯(Bayesian)算法[5]和最佳优先搜索(Best First Search,BFS)[6]算法,从而对网页数据进行精准的定向爬取。