1.4.2 获取数据
寻找合适的训练数据是一件非常重要的事。获取数据的方式有很多种,如使用公开的数据集,利用爬虫类数据采集工具等。下面介绍几个常用的数据网站和常见的数据获取方式。
1.使用公开的数据集
(1)常用的数据公开网站如下。
UCI:经典的机器学习、数据挖掘数据集,包含分类、聚类、回归等问题下的多个数据集。
国家数据:数据来源于中华人民共和国国家统计局,包含了我国经济、民生等多个方面的数据。
CEIC:最完整的一套超过128个国家的经济数据,能够精确查找GDP、CPI、进口、出口、外资直接投资、零售、销售以及国际利率等深度数据。其中的“中国经济数据库”收编了几十万条时间序列数据,数据内容涵盖宏观经济数据、行业经济数据和地区经济数据。
万得:在金融业有着全面的数据覆盖,金融数据的类目更新非常快,很受国内的商业分析者和投资人的青睐。
搜数网:汇集了中国资讯自1992年以来收集的所有统计和调查数据。
中国统计信息网:国家统计局官方网站,汇集了海量的全国各级政府各年度的国民经济和社会发展等统计信息。
亚马逊:来自亚马逊的跨科学云数据平台,包含化学、生物、经济等多个领域的数据集。
figshare:研究成果共享平台,这里可以找到来自世界的高级学者、专家的研究成果数据。
github:一个非常全面的数据获取渠道,包含各个细分领域的数据库资源,自然科学和社会科学的覆盖都很全面,适合做研究和数据分析的人员使用。
(2)政府开放数据的网站如下。
北京市政务数据资源网:包含竞技、交通、医疗、天气等数据。
深圳市政府数据开放平台:包含交通、文娱、就业、基础设施等数据。
上海市政务数据服务网:包含经济建设、文化科技、信用服务、交通出行等多领域数据。
(3)数据竞赛网站如下。
竞赛的数据集通常干净,且科学研究性非常高。
DataCastle:专业的数据科学竞赛平台。
Kaggle:全球最大的数据竞赛平台。
天池:阿里旗下的数据科学竞赛平台。
Datafountain:中国计算机学会指定的大数据竞赛平台。
2.利用爬虫获取数据
前面给出了一些网站平台,读者可以使用爬虫工具爬取这些网站上的数据。某些网站给出了获取这些数据的API接口,但需要付费。
3.数据交易平台
由于数据需求的增大,现在涌现出很多数据交易平台,如优易数据、数据堂等。这些平台属于付费平台,但里面也会有些免费数据。
4.网络指数
通过指数的变化,可以查看某个主题在各个时间段受关注的情况,从而进行趋势分析、行情分析和预测。例如,百度指数、阿里指数、友盟指数、爱奇艺指数等。
5.网络采集器
网络采集器(如造数、爬山虎等)可通过软件形式简单、快捷地采集网络上分散的数据,具有很好的数据收集功能。