上QQ阅读APP看书,第一时间看更新
前 言
一图胜千言!这是对图形最好的概括。一张优质的统计图形,不仅能够准确、生动的展示出我们的结果,更能给人一种数据之美、图形之美的享受。同时,在科研论文中添加一张精美的统计图形,对于文章整体的质量也是一种提升。
那么,如何利用数据绘制出一张准确而精美的统计图形呢?相信有很多软件可以做到。但是,毫无疑问,从实现的简便性和实现的效果上来说,R语言是这方面的翘楚。
随着数据科学和计算机科学的不断发展,R语言近十年也在蓬勃发展,它在统计建模、机器学习、数据挖掘、生物信息等方面表现十分抢眼。同时,R语言的绘图功能也一直为人所称道。无论是基础绘图系统还是 ggplot2绘图系统,均可以利用少量的代码绘制出精美的统计图形。因此,近几年,R语言的身影在科研论文中,包括 Lancet、 JAMA之类的顶级医学期刊论文中,屡见不鲜。这种现象提示我们,一篇优质的科研论文,除了研究设计、数据分析、论文撰写这些重要环节外,结果的呈现方式也非常重要。这也就是我们撰写这本书的初衷——让更多优质的统计图形出现在我们的科研论文中。
本书从结构上来说,主要分为六大篇,共十四章,其中,前三篇主要介绍静态图形的绘制,包括基础绘图包、 ggplot2、地图等方面;第四篇介绍了R语言几种主要的动态交互绘图系统,比如 plotly、 recharts、 leaflet等;第五篇介绍了一些另辟蹊径的图形和医学科研中独有的统计图形,比如生存曲线和meta分析森林图;第六篇介绍了R语言中统计表格的制作方法。与此同时,笔者在行文的过程中,穿插了很多实际工作中可能遇到的问题,比如图形颜色的选取、高质量图形的保存与导出、中文字体的选择等等。在代码的编排上,除了代码中不同类型文本之间(比如数字和字符串)有颜色区分外,笔者也做了大量的代码注释,以帮助读者更好的理解。此外,文中使用的所有数据,要么来自于R语言的内置数据集,要么是笔者利用函数构建的随机数据集,因此读者都可以轻松获取相应的数据进行代码练习,但是有一点需要声明,文中所有随机生成的数据集,比如肿瘤发病率数据集,均是为了图形的展示,并无任何实际意义。本着“授人以鱼不如授人以渔”的原则,书中大量的代码和图形均是从简单入手,其目的是为了使读者更好的掌握R语言的绘图技巧,而一些复杂的图或者“成品图”在书中鲜有出现。绘图是一种创意的考验,但是创意是建立在良好的基础之上的。由于篇幅有限,书中部分图形被封装到每个章节的二维码中,读者可以扫码看图。
江山代有才人出,各领风骚数百年。R语言很小巧(安装包仅有70M),但是强大,R语言很庞大(至今已有超过13 000个扩展包),但是优雅。在本书中,希望你能跟随笔者的脚步一起感受R语言的魅力,体会数据之美,图形之美。
本书的编写得到了国家重点研发计划、国家自然科学基金、教育部博士点基金、上海市自然科学基金的资助。我们特别邀请了我国著名流行病学家俞顺章教授与何纳教授对本书进行审阅,两位老师丰富的学识和严谨的科学态度为本书增色不少。感谢安徽医科大学段禹同学和复旦大学左佳鹭、袁黄波以及蔡宁同学在文字编排上的协助;感谢山东大学张文超同学在本书封面设计上的帮助;同时感谢“医学方”微信公众平台的支持。本书编撰的同时也收到了大量的网友反馈,他们所提出的意见和建议帮助我们进一步完善了本书的内容,在此一并致谢!
我们求学于复旦、成长于复旦,衷心感谢复旦大学对于本书的大力支持;感谢每一位编委的辛劳付出;感谢R语言道路上的先驱与前辈,是你们的智慧成就了R语言的今天,才让我们能够站在巨人的肩膀上继续前行。
由于笔者水平有限,对于R语言理解有限,书中难免有疏漏错误之处,恳请各位专家、老师、前辈、同学批评指正(邮件可发送至zhenqiuliu@outlook.com),谢谢!
张铁军 陈兴栋 刘振球
2017年6月20日于西苑8号楼