工业大数据分析算法实战
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.4.2 必读图书

本节只列举通用类的图书,特定领域(如时序数据挖掘)的图书或论文将在具体章节给出。按照算法、工具、应用案例三类,给出一些推荐书目,见表1-6。

表1-6 数据分析图书推荐

对大部分工程应用,有算法原理的基本了解就够了,但算法研究者,应知其所以然。EoSL(Element of Statistical Learning)、PRML(Pattern Recognition&Machine Learning)、MLAP(Machine Learning:A Probabilistic Perspective)、Pattern Classification(中译本《模式分类》)是公认的四本经典图书。EoSL是斯坦福大学统计系三位统计大家的著作,各种算法的讲解从基本思想娓娓道来,辅以浅显易懂的图形展示,公式简洁明了,为了逻辑的连续性,很多定理证明简单略过,给人以信手拈来的感觉,值得数据分析师反复研读。EoSL读起来很顺畅,但要完全读懂对读者的数学素养要求还挺高。为了进一步降低要求,ISL(An Introduction to Statistical Learning with Applications in R)继承了EoSL的风格,但侧重算法应用,更加适合入门。PRML和MLAP是从贝叶斯角度论述机器学习的经典之作,相对于EoSL侧重算法思想演化的讨论,PRML更侧重公式推导,读起来更辛苦。MLAP在概念的图示化方面做得很好,有更直观的理解。《模式分类》中的图比较多,入门要求不高,这本书的第1版于1973年出版,第2版于2000年出版,单看这两个时间,大家就知道什么叫经典。深度学习方面当然是Goodfellow、Bengio和Courville三人合写的Deep Learning那本书,把不同深度学习网络背后的基本思想介绍得非常透彻。在统计算法方面,Larry Wassermand的两本书All of Statistics:A Concise Course in Statistical InferenceAll of Nonparametric Statistics简洁明了,重要概念和算法背后的思考及应用前提都介绍得非常清楚。MASS这本书与R语言的MASS包对应,是理解各种统计算法的好书。Givens和Hoeting的《计算统计(第2版)》直观解释了很多统计算法的计算过程。

在算法快速入门上,除了ISL,还有Machine Learning RefinedIntroduction to Machine Learning等图书,国内有韩家炜的中译本《数据挖掘概念与技术》、周志华的《机器学习》和李航的《统计学习方法》(第2版),都很系统全面地介绍了常用的算法。另外,Morgan&Claypool Publisher的Synthesis Lectures on Artificial Intelligence&Machine Learning从书中的发展前沿综述对全面了解新领域有很大帮助。

还有一类算法书值得读者翻阅,一种就是日本学者的《图解机器学习》《图解深度学习》等书,能以最简单的方式介绍各种算法,需要的功力比一本算法教材要深得多。国内出版的《百面机器学习》以面试问答的形式,让大家从反向的角度将算法知识再梳理一遍。另外,NIST的Engineering Statistics HandbookData Mining and Knowledge Discovery Handbook这两本手册分别将统计、数据挖掘算法框架系统性总结了一遍,能够帮助读者建立起概念的框架。

在工具软件领域,O’Reilly、CRC、Manning等知名出版社出版了很多经典的Cookbook、In Action之类的经典图书,也有对应的中译本,是掌握分析工具的好书。Springer的User R系列丛书对不同主题的R语言应用有详细的介绍。《应用预测建模》对于R语言caret包,系统介绍了回归、分类建模中的各个算法。对于Python,scikit-learn官网上的大量例子是了解各种算法的好起点。最后,Journal of Statistical Software杂志是讨论各种统计分析软件包的好地方,很多优秀R语言包都是在这个杂志上介绍的。

很多工具书都带有一些小的例子,但Data Mining with R:Learning with Case Studies有更加系统的例子,端到端地展示了建模过程。

本节仅简单列举了部分比较好的图书,还有很多精彩图书将在具体章节中给出。另外,更多优秀的图书和论文也在不断涌现。但无论如何发展,很多基本思想是不变的(将在下节讨论),而这样的思想通常出现在算法发明人和技术大家的专著和论文中,特别是外文经典书籍、期刊论文(例如Annals of Statistics期刊有很多经典统计学习算法原作者的论文和权威专家点评),希望大家尽可能多读读这些经典,获得的将不仅仅是知识和技能,而是这些算法背后的思考、深入浅出的解释以及算法适用范围的讨论。