上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
第2章 数据获取
数据最常见的获取方式是通过网络搜索,如使用特定的搜索指令快速获取个性化数据。这类可搜索到的数据属于主动公开的范畴,若熟悉获取数据的领域,可以到其主动公开的网站查询。例如,在国家统计局的网站上可以快速、准确地按月查询“价格指数”,按季度查询“国内生产总值_当季值(亿元)”,按年度查询工业农业基础数据等,也可以使用搜索指令快速、准确地得到搜索结果。若数据没有主动公开,则可以依据《中华人民共和国政府数据公开条例》申请数据公开。若申请的数据不符合公开原则,或者不存在,则可以自己手动获取数据。比较常见的方法是使用网络问卷或者调查主动搜集数据,可以运用众包的方法,通过群众的智慧和力量搜集或获取数据。
很多时候需要获取的数据保存在网页上,需要使用一定的工具,如import.io、Octoparse抓取数据后,才可以进行再处理和再利用,对工具无法抓取的网页数据,可以自己编写代码抓取(如Python)。抓取的数字图片、数字音频和视频需要专门的软件进行编辑。注意,保存的文件类型对数据的质量有重要影响。
任何已经抓取并保存的数据,因为文件格式种类繁多,为方便再次编辑和再次使用,需要对已经获取的数据进行格式转换,使其达到用户或发布平台的需求。