前言
本书的主题是特征工程。特征工程是数据科学和机器学习流水线上的重要一环,包括识别、清洗、构建和发掘数据的新特征,为进一步解释数据并进行预测性分析做准备。
本书囊括了特征工程的全流程,从数据检查到可视化,再到转换和进一步处理,等等。书中还会涉及各种或简单或复杂的数学工具,数据要经过这些工具处理、转换成适当的形式,才能进入计算机和机器学习流水线中进行处理。
作为数据科学家,我们将通过观察和变换来获取对数据的全新理解,这不仅会增强机器学习算法的效果,而且会增强我们对数据的洞悉力。
目标读者
本书面向希望理解并使用特征工程进行机器学习和数据挖掘的读者。
读者应能熟练使用Python进行机器学习和编程,才能顺着章节的展开循序渐进地了解新知识点。
本书内容
第1章,特征工程简介 这一章介绍特征工程的基本术语,简要阐释本书涉及的各类问题。
第2章,特征理解:我的数据集里有什么 这一章介绍我们在实际中会遇见的各类数据,并说明如何处理这些数据。
第3章,特征增强:清洗数据 这一章介绍填充缺失值的各种方法,以及为何某些处理方法会使机器学习性能变差。
第4章,特征构建:我能生成新特征吗 这一章介绍如何使用已有的特征构建新特征,以扩大数据集。
第5章,特征选择:对坏属性说不 这一章介绍定量的选择方法,用于判断哪些特征值得在数据流水线中保留。
第6章,特征转换:数学显神通 这一章介绍如何使用线性代数和高等数学方法增强数据的刚性结构,从而提升流水线的性能。
第7章,特征学习:以AI促AI 这一章介绍如何利用最先进的机器学习和人工智能算法,发现人类难以理解的特征。
第8章,案例分析 这一章介绍了一系列巩固特征工程思想的案例。
阅读须知
阅读本书有以下两点要求。
(1) 本书的所有编程示例均使用Python。你需要有一台可以访问Unix式终端的计算机(Linux、Mac或Windows均可),并安装Python 3。
(2) 建议安装Anaconda,因为这个环境几乎包含了示例中要用到的所有包。
下载示例代码
你可以从“图灵社区”本书页面(http://www.ituring.com.cn/book/2606)下载书中的示例代码。
文件下载结束之后,请确定使用以下软件的最新版本解压或提取文件:
❏ WinRAR/7-Zip(Windows)
❏ Zipeg/iZip/UnRarX(Mac)
❏ 7-Zip/PeaZip(Linux)
https://github.com/PacktPublishing/提供了种类丰富的图书和视频资料相关代码包,好好看一下吧!
下载本书彩色图片
我们也提供含有彩色截图/图表的PDF文件。彩色图片能帮助你更深入地理解输出的变化。下载地址:https://www.packtpub.com/sites/default/files/downloads/FeatureEngineeringMadeEasy_ColorImages.pdf。
排版约定
本书采用不同的文本样式来区分不同类别的信息。
正文中的代码按以下样式显示:“假设要进一步处理数据,我们的任务就是通过3个输入特征(datetime、protocol和urgent)准确地预测malicious。简单地说,我们想要的系统可以把datetime、protocol和urgent的值映射到malicious的值。”
代码块的样式如下所示:
Network_features = pd.DataFrame({'datetime': ['6/2/2018', '6/2/2018', '6/2/2018', '6/3/2018'], 'protocol': ['tcp', 'http', 'http', 'http'], 'urgent': [False, True, True, False]}) Network_response = pd.Series([True, True, False, True]) Network_features >> datetime protocol urgent 0 6/2/2018 tcp False 1 6/2/2018 http True 2 6/2/2018 http True 3 6/3/2018 http False Network_response >> 0 True 1 True 2 False 3 True dtype: bool
如果我们需要你重点关注某处,会加粗显示:
times_pregnant 0.221898
plasma_glucose_concentration 0.466581
diastolic_blood_pressure 0.065068
triceps_thickness 0.074752
serum_insulin 0.130548
bmi 0.292695
pedigree_function 0.173844
age 0.238356
onset_diabetes 1.000000
Name: onset_diabetes, dtype: float64
新术语、重点词和屏幕上的文字将以黑体形式显示。
这个图标表示警告或需要特别注意的内容。
这个图标表示提示或技巧。
联系我们
一般反馈:发送邮件至feedback@packtpub.com并在主题处提及书名。如果对于本书任何方面有疑问,请发送邮件至questions@packtpub.com。
勘误:尽管我们做了各种努力来保证内容的准确性,依然无法避免出现错误。如果你在书中发现文字或代码错误,请告知我们,我们将非常感谢。请访问https://www.packtpub.com/submit-errata提交勘误。通过点击Errata Submission Form链接选择图书,然后输入勘误详情。
反盗版:如果你在网上发现有对我们图书的非法复制行为,请立即将地址或网站名通知我们,非常感谢。请联系copyright@packtpub.com并提供有盗版嫌疑的链接。
成为作者:如果你在某个领域有专业知识,并且有兴趣进行图书写作,请访问authors.packtpub.com。
评论
请留下你的评论。阅读并使用本书之后,为什么不在购买网站上留下评论呢?其他读者可以根据你的客观意见来做出购买决定,Packt可以了解你对产品有何看法,作者也能看到你对本书的反馈。谢谢!
想了解关于Packt的更多信息,请访问http://www.packtpub.com。
电子书
扫描如下二维码,即可购买本书电子版。