前言
为什么要写本书
随着信息技术和人工智能产业的蓬勃发展,数据成为时代发展下的珍贵资源。各行各业通过数据分析技术挖掘数据的价值,数据分析技术在如医疗健康、交通出行、商业策略、经济金融、城乡规划、气象变化、科学研究及自动化办公等许多领域大放异彩,取得了巨大的成功,因此无论是工业界还是学术界,对数据分析人才的需求都十分迫切。
本书选择Python作为数据分析的利器。Python作为一门简单易用的编程语言,又因其具有众多功能强大的第三方库而被广泛应用于人工智能领域,许多与人工智能关联的框架都是以Python作为主要语言进行开发的。数据分析与人工智能等相关领域密不可分,数据分析中可以应用相应的智能算法辅助决策,人工智能也离不开对数据的分析与处理,因此使用Python作为数据分析的工具能很好地适应智能产业时代的发展,并且Python与其他学科有很好的交融性、适应性。
由于知识更新迭代的速度日新月异,本书编写的目的不仅仅是希望读者掌握本书介绍的Python数据分析知识,更希望读者能够掌握学习数据分析的技巧,重视编程能力提升,让读者在掌握本书知识内容的情况下,无论是继续学习数据分析相关知识,还是想拓展涉及更多更深的Python应用领域(如人工智能、机器学习方向),都能够有扎实的基础。
本书内容与特色
全书共分为3篇:初识篇、基础篇和进阶篇。初识篇(第1章和第2章),主要介绍数据分析和Python的相关基础概念,一些数据分析的具体应用场景及Python的集成开发环境;基础篇(第3~9章),主要介绍Python的基础语法,自动化办公的基础操作,借助Matplotlib和Seaborn进行数据可视化,数据分析的核心库NumPy和Pandas,提供了大量翔实、有趣的编程和数据分析示例;进阶篇(第10章和第11章),主要介绍机器学习的入门基础理论知识和代码实现,监督学习和无监督学习的各种典型算法,涉及机器学习和数据挖掘的常用库scikit-learn及神经网络框架PyTorch等的使用,还介绍了编程算法中的动态规划,以及数据分析的实战例子。
由于不同的读者对Python代码的接受程度不一样,知识基础也不一样,因此为了让读者尽可能轻松地理解全书内容,没有专业障碍地进行全书内容学习,编者尽量站在读者的角度进行全书的写作。本书以通俗语言为读者进行内容的阐释,对于书中所举的数据分析任务提供分析说明和示例代码,在代码中也有着极为详细的注释,如果书中后面内容的代码使用了前面内容介绍的知识,还会细心地为读者标注相关内容在书中出现的具体位置,以期减轻读者的代码阅读负担,提高读者的学习效率,节省读者的时间。
读者对象
本书面向的读者是数据分析的初学者,可以作为高等院校各专业的“数据分析”课程教材,也可以作为广大数据分析从业者、爱好者、办公人员、科研人员的参考和学习用书。
勘误和支持
由于编者的水平及撰稿时间有限,书中难免会出现一些疏漏或者表意不准确的地方,诚挚恳请读者及专家、学者给予批评和指正。
致谢
特别感谢清华大学出版社的赵佳霓老师,感谢她对本书专业且高效的审阅,以及对书中各种表意方式和文笔的润色建议。感谢参与本书出版的所有出版社的老师,在他们的辛勤努力下,才有了本书的顺利出版。
感谢厦门大学智能多媒体技术实验室和厦门大学数据挖掘与计算智能实验室的所有老师和同学,感谢他们在本书编写过程中给予的支持、指导和帮助,以及对编者的理解和鼓励。
最后,感谢编者的家人和朋友的一路陪伴,编者将始终满怀感恩!
配套资源
为了方便读者学习,本书配套提供了书中的程序代码,并录制了部分重点内容的讲解视频,读者扫描下方二维码即可下载代码及相关数据文件。
本书源代码
撰写一本书是为了将知识和技能进行梳理并分享给大众,为大众提供便利是一件非常有意义的事情。最后,编者希望本书能够为数据分析技术的普及贡献绵薄之力。
编者
2021年9月于厦门