推荐序二
很惭愧,本人还没写几本书,序倒是写了好多篇,俨然已成为作序专业户。不过这次我很荣幸也很乐意为狗熊会摇旗呐喊一嗓子,因为我打心底认同狗熊会的朴素价值观——数据创造价值。这六个字在我看来分量相当重,尤其是在统计学术界颇为难得。如果是我,恐怕没勇气发起这个冲锋,因为我深知公式、定理、模型都是优雅的,而现实中的数据多半是混沌到让你分分钟想掀桌的程度。想用数据创造价值,需要莫大的毅力、耐心和智慧。就算作为一个跟统计沾点边的码农,我也是怯懦地选择了写代码而不是做数据分析,因为我知道后一条路不好走。
在我看来,本书最大的特色是集成了狗熊会这两年大量数据分析案例,而且这些案例都很新潮、实际。我个人最钟爱的还当属老王卖耗子药的万能例子(虽说是虚构的,但这个场景我总觉得很好笑)。我跟熊大只在2016年中国R语言大会期间某食堂餐桌上匆匆打过一次照面,也只听过他一次报告。还记得他在台上吆喝“全宇宙的中心——五道口”惹得我们统计之都的“萌主”(周扬,也是著名“段子手”)在后排嘿嘿一乐,深刻体现了熊大争做网红的决心。我个人完全支持统计学教授做网红,至少听众笑过之后还能留下点思考和知识。可能是受网红路线的影响,这本书也颇有网红风:热门电影、小说、事件等都在书中的案例里有所涉及。分析你关心或能吸引你注意的数据也许能让你更专心地阅读这本书。
本书的另一特点就是很细致。对我这样的读者来说可能细致得有点“令人发指”,比如我肯定没有耐心介绍如何下载安装R,或是如何在浏览器中查看HTML元素。所以写书能完全从新手的角度出发挺难得的,宁可过于细致,也不要贸然假设读者已经拥有某些基础知识。细致的好处在于你学一样就能会一样,而不必再翻别的资料补课。
就写作风格而言,本书内容比较通俗,没什么晦涩的专业术语,我觉得也很好。在模型技术方面,书中除了机器学习一章中简略提及几个稍高等的模型之外,基本以探索性分析和回归为主,这也符合我本人对简单模型的偏爱(没办法,我数学太差)。
本着君子和而不同的精神,以及对狗熊会求真进取精神的信任,我想坦诚地说,世上没有哪本书会是完美而全面的指南,作者和编者一定会有所取舍,比如要顾细致就不能求全面。我相信这本书会为新手打开R的大门、教给读者大量实用技能,但有雄心壮志的读者应该在此基础上继续深造。最近几年恰逢R社区比较“动荡”,这个“动荡”主要源于一个Tidyverse门派(我戏称为“极乐净土”)的异军突起。我自己作为R老用户,看到本书中的代码非常亲切和熟悉,因为我就是这样学R的,但我觉得从今往后,尝试往Tidyverse数据分析范式转型会让很多业余数据分析者受益。
本书主要作者雪宁在统计之都网站也担任主编数年,其领导风范、专业水平和敬业态度都让我深感敬佩。上可推公式,下可敲代码,办事有条有理、有始有终,可谓狗熊会中诸多英雄的突出代表。写作本书想必耗费了主编不少心血,当然,各章节的作者也付出了大量努力(狗熊会的标准向来比较严苛)。我衷心期待更多人能通过这本轻快又实在的书了解数据分析的乐趣和技能,并进一步找到自己独特的用数据创造价值的法门。
注释
[1]统计之都网站创始人。