Python数据分析与数据化运营(第2版)
上QQ阅读APP看书,第一时间看更新

1.5 本章小结

内容小结:本章分别从Python和数据化运营的关系,数据化运营所需要的Python相关工具组件入手,介绍了有关Python和数据化运营的理念、关系、流程和工具,并通过一个小案例演示了如何通过Python进行销售预测。

重点知识:有关Python的相关工具部分,这些内容是本书后续所有工作的基础,希望读者能在本机上进行安装、测试和学习。尤其是本书的代码实例都是基于Jupyter操作的,这是做数据分析、交互和展示的优秀工具。

外部参考:限于篇幅,本章没有对Python和相关工具的基础知识进行讲解,只是介绍了涉及案例中的部分内容。因此,很多知识需要读者额外“补习”,除了Python基础知识和科学计算以外,还有数据库、Tesseract、TensorFlow等工具,它们将构成数据基础工作和数据延伸工作的基石。作为本章内容的延展,笔者列出了相关资源,希望给予读者必要参考。

(1)Python参考资源

以下列出了与Python相关的主要的官方参考资源和信息。

❑ Python官方网站:https://www.python.org/。Python最权威的网站,包含有关Python的帮助手册、新闻、事件、应用、案例、社区等,并提供官方Python所有版本和环境的安装程序和安装包。

❑ Python pypi第三方库:https://pypi.org/。原来的pupi.python.org将重定向到新的网址。Python使用pip命令安装时,请求的资源就来源于该网站,这里汇聚了众多第三方Python程序的软件仓库。

❑ Stack Overflow:http://stackoverflow.com/。Stack Overflow是一个与程序相关的IT技术问答网站,用户可以在网站上免费提交、浏览和检索问题。大多数情况下,你的问题都不是第一次出现,所以有问题了不妨先在这里找找答案。

❑ Python内部帮助文档和信息:在命令行窗口使用help()和dir()命令。例如:通过dir(numpy.mean)查找numpy库下面的mean函数的大部分属性,通过help(numpy.mean)获得该函数的具体介绍、参数解释、应用举例等详细信息。这是针对特定知识点最为主要的学习参考资源。

(2)Python学习书籍

大多数情况下,通过上述方法可以了解到Python基本知识,但以下图书资源会帮助你更加深入地了解Python及其相关库的工作方式和逻辑,尤其是对于数据挖掘、机器学习等领域的认知。

❑《利用Python进行数据分析(Python for Data Analysis)》,是Python用于数据分析的专业书籍,介绍了Python中用于数据分析的几个主要科学计算和展示库Nunpy、Pandas、Matplotlib等。虽然书中对这些库的讲解略粗,但全书的逻辑体系完整,适合作为数据分析和挖掘工作者的入门阅读资料。

❑《Python数据分析与挖掘实战》,是从数据工作流的方式展开介绍Python的数据应用,书籍的逻辑结构较为完整,后面也有部分案例的介绍,适合对Python有一定了解的数据工作者阅读。

❑《机器学习实战(Machine learning in action)》,这是使用Python进行机器学习的专业书籍,需要读者具有相当的算法、程序和模型专业知识,适合中高级数据挖掘和建模工程师阅读。

❑《集体智慧编程》,这是使用Python进行机器学习的专业书籍,与传统机器学习书籍不同的是,该书没有按照算法分类进行分别阐述,而是从应用的角度分场景介绍。书中需要读者了解工程、算法和模型知识,更适合中高级数据挖掘、建模工程师、程序员阅读。

❑《Python基础教程》,这是一本纯Python编程语言的介绍书籍,其中主要围绕每个方法、条件、函数、对象、属性等进行介绍,适合程序员以及想深入了解Python工作原理和逻辑的读者查阅。

(3)MySQL相关

数据分析师或挖掘工程师对数据库的应用语言主要集中在DDL(本机操作)和DML(本机和服务器操作)上,而DCL和TCL涉及相对较少。因此建议读者重点了解前两种语言的相关知识。

❑ MySQL官方资源:https://dev.mysql.com/doc/。所有有关MySQL的官方信息和知识都可以在这里找到。

❑ MySQL第三方教程:http://www.runoob.com/mysql/mysql-tutorial.html。言简意赅地介绍MySQL的基本用法,并且是全中文的按照用法主题分类,适合作为知识查找工具。

❑《深入浅出MySQL》,这是一本比较完整地阐述MySQL的开发、设计、运维、管理等方面内容的书籍,内容全面,并且有适合初学者的章节。

(4)Tesseract-OCR相关

有关tesseract的资源不多,目前主要是官方信息。

❑ Tesseract wiki:https://github.com/tesseract-ocr/tesseract/wiki。页面右侧按照不同的主题页面展示,可直接点击对应标题查看。

❑ Tesseract介绍:https://github.com/tesseract-ocr/docs。各种会议和演示的PPT材料和介绍信息。

❑ Tesseract训练数据集:https://github.com/tesseract-ocr/tessdata。注意页面中是Tesseract 4版本用的数据集,其他版本请查看页面底部信息入口。

❑ Tesseract语言文件:https://github.com/tesseract-ocr/langdata。按照语言类别归类到文件,用来为特定的语言做重新训练时的主要过程数据和文件。

(5)TensorFlow相关

TensorFlow作为2015年年底“刚”开源的机器学习框架,其学习资源增长非常快,其学习资源不多,原因是开源之后即使有大型公司或团队使用,也需要经过一定时间的技术实践和应用。

❑ Tensorflow官方网站:http://www.tensorflow.org/。要打开这个网站需要一定的工具或技巧。

❑ Tensorflow中文社区:http://www.tensorfly.cn/。相当于汉化版的官方网站。

❑ TensorFlow中文社区论坛:https://www.tensorflowers.cn/。这是TensorFlow与Caicloud(才云)联合发起和创建的TensorFlow中文社区论坛。

❑《TensorFlow技术解析与实战》:当前Tensorflow的书籍已经不少,但是有层次、有逻辑且实战性强的综合书籍不多,这本书算是一本。

❑ 谷歌机器学习官方资源:https://developers.google.cn/machine-learning/crash-course/。虽然这是有关机器学习的,但是也涉及Tensorflow的应用讲解。

❑ 极客学院的Tensorflow官方文档中文版:http://wiki.jikexueyuan.com/project/tensorflow-zh/。在Tensorflow刚开源1个多月,极客学院就组织了很多人进行翻译。

应用实践:读者可以自己手写一个Python工作(比如预测)案例,也许在这个过程中会出现很多意想不到的问题,但别担心,总有很多途径可以解决这些问题,并且解决问题的过程正是学习的过程,通过简单的练习可以掌握Python工作的基本原理和方法。