2.3　本章心得_大数据架构商业之路：从业务需求到技术方案-QQ阅读男生轻小说网

上QQ阅读APP看书，第一时间看更新

icon2

2.3　本章心得

“看来仅仅是数据的采集，就有不少学问啊。”

“是的，对于互联网上的公开数据，我们可以通过爬虫这个强大的工具来获取所需要的内容。深度获取、宽度获取和最佳（聚焦或定向）优先是不同的爬取策略，让爬虫可以不断地发现‘数据的新大陆’。在数据的爬取方面，Nutch和Heritrix都是不错的开源系统，可以帮助我们快速实现爬取。对于企业内部的数据而言，数据源的发现不再是问题，更要强调的是数据收集和传输的及时性。Flume、Scribe和Logstash等开源方案，提供了拉取或推送的采集模式，提供了不同的特性和选择。”

“小明哥，感谢你今天关于数据采集的介绍，这下我们不愁没有大量的数据玩了。对了，还有一个问题，就是这么多的数据如何才能存放下来呢？”

“存放确实很关键。无论是互联网，还是企业内部收集到的数据，都可以使用像Hadoop这样NoSQL的大数据解决方案来存储。别急，我们会在下一章来探讨这个问题。如果你对数据收集本身还想做进一步了解，可以参考下面的图书。”

2.3 本章心得

2.3　本章心得