特征工程入门与实践
上QQ阅读APP看书,第一时间看更新

前言

本书的主题是特征工程。特征工程是数据科学和机器学习流水线上的重要一环,包括识别、清洗、构建和发掘数据的新特征,为进一步解释数据并进行预测性分析做准备。

本书囊括了特征工程的全流程,从数据检查到可视化,再到转换和进一步处理,等等。书中还会涉及各种或简单或复杂的数学工具,数据要经过这些工具处理、转换成适当的形式,才能进入计算机和机器学习流水线中进行处理。

作为数据科学家,我们将通过观察和变换来获取对数据的全新理解,这不仅会增强机器学习算法的效果,而且会增强我们对数据的洞悉力。

目标读者

本书面向希望理解并使用特征工程进行机器学习和数据挖掘的读者。

读者应能熟练使用Python进行机器学习和编程,才能顺着章节的展开循序渐进地了解新知识点。

本书内容

第1章,特征工程简介 这一章介绍特征工程的基本术语,简要阐释本书涉及的各类问题。

第2章,特征理解:我的数据集里有什么 这一章介绍我们在实际中会遇见的各类数据,并说明如何处理这些数据。

第3章,特征增强:清洗数据 这一章介绍填充缺失值的各种方法,以及为何某些处理方法会使机器学习性能变差。

第4章,特征构建:我能生成新特征吗 这一章介绍如何使用已有的特征构建新特征,以扩大数据集。

第5章,特征选择:对坏属性说不 这一章介绍定量的选择方法,用于判断哪些特征值得在数据流水线中保留。

第6章,特征转换:数学显神通 这一章介绍如何使用线性代数和高等数学方法增强数据的刚性结构,从而提升流水线的性能。

第7章,特征学习:以AI促AI 这一章介绍如何利用最先进的机器学习和人工智能算法,发现人类难以理解的特征。

第8章,案例分析 这一章介绍了一系列巩固特征工程思想的案例。

阅读须知

阅读本书有以下两点要求。

(1) 本书的所有编程示例均使用Python。你需要有一台可以访问Unix式终端的计算机(Linux、Mac或Windows均可),并安装Python 3。

(2) 建议安装Anaconda,因为这个环境几乎包含了示例中要用到的所有包。

下载示例代码

你可以从“图灵社区”本书页面(http://www.ituring.com.cn/book/2606)下载书中的示例代码。

文件下载结束之后,请确定使用以下软件的最新版本解压或提取文件:

❏ WinRAR/7-Zip(Windows)

❏ Zipeg/iZip/UnRarX(Mac)

❏ 7-Zip/PeaZip(Linux)

https://github.com/PacktPublishing/提供了种类丰富的图书和视频资料相关代码包,好好看一下吧!

下载本书彩色图片

我们也提供含有彩色截图/图表的PDF文件。彩色图片能帮助你更深入地理解输出的变化。下载地址:https://www.packtpub.com/sites/default/files/downloads/FeatureEngineeringMadeEasy_ColorImages.pdf

排版约定

本书采用不同的文本样式来区分不同类别的信息。

正文中的代码按以下样式显示:“假设要进一步处理数据,我们的任务就是通过3个输入特征(datetime、protocol和urgent)准确地预测malicious。简单地说,我们想要的系统可以把datetime、protocol和urgent的值映射到malicious的值。”

代码块的样式如下所示:

        Network_features = pd.DataFrame({'datetime': ['6/2/2018', '6/2/2018',
        '6/2/2018', '6/3/2018'], 'protocol': ['tcp', 'http', 'http', 'http'],
        'urgent': [False, True, True, False]})
        Network_response = pd.Series([True, True, False, True])
        Network_features
        >>
          datetime    protocol   urgent
        0    6/2/2018        tcp   False
        1    6/2/2018      http    True
        2    6/2/2018      http    True
        3    6/3/2018      http   False
        Network_response
        >>
        0        True
        1        True
        2      False
        3        True
        dtype: bool

如果我们需要你重点关注某处,会加粗显示:

        times_pregnant                     0.221898
        plasma_glucose_concentration       0.466581
        diastolic_blood_pressure           0.065068
        triceps_thickness                  0.074752
        serum_insulin                      0.130548
        bmi                                0.292695
        pedigree_function                  0.173844
        age                                0.238356
        onset_diabetes                     1.000000
        Name: onset_diabetes, dtype: float64

新术语、重点词和屏幕上的文字将以黑体形式显示。

这个图标表示警告或需要特别注意的内容。

这个图标表示提示或技巧。

联系我们

一般反馈:发送邮件至feedback@packtpub.com并在主题处提及书名。如果对于本书任何方面有疑问,请发送邮件至questions@packtpub.com。

勘误:尽管我们做了各种努力来保证内容的准确性,依然无法避免出现错误。如果你在书中发现文字或代码错误,请告知我们,我们将非常感谢。请访问https://www.packtpub.com/submit-errata提交勘误。针对本书中文版的勘误,请到http://www.ituring.com.cn/book/2606查看和提交。——编者注通过点击Errata Submission Form链接选择图书,然后输入勘误详情。

反盗版:如果你在网上发现有对我们图书的非法复制行为,请立即将地址或网站名通知我们,非常感谢。请联系copyright@packtpub.com并提供有盗版嫌疑的链接。

成为作者:如果你在某个领域有专业知识,并且有兴趣进行图书写作,请访问authors.packtpub.com

评论

请留下你的评论。阅读并使用本书之后,为什么不在购买网站上留下评论呢?其他读者可以根据你的客观意见来做出购买决定,Packt可以了解你对产品有何看法,作者也能看到你对本书的反馈。谢谢!

想了解关于Packt的更多信息,请访问http://www.packtpub.com

电子书

扫描如下二维码,即可购买本书电子版。