![零基础入门Python数据分析与机器学习](https://wfqqreader-1252317822.image.myqcloud.com/cover/147/44510147/b_44510147.jpg)
上QQ阅读APP看书,第一时间看更新
1.4 一个简单的数据分析案例
![](https://epubservercos.yuewen.com/F4E5C2/23721471401889206/epubprivate/OEBPS/Images/Figure-P27_1109.jpg?sign=1740080128-NIrYS81mub3Q48gLOvPKySb2xwR5fY52-0-dfba04d39b087b7658876a8310b8de38)
为了让读者更好地认识数据分析,下面介绍一个企业员工流失预测的例子。我们知道员工主动离职的原因多种多样,一般是员工觉得薪资不合理或者自己受到委屈等。但是,企业培养人才需要大量的成本,为了防止人才流失,员工流失分析就显得十分重要。
这里我们收集了部分离职员工的相关数据,共有6个字段,包括影响员工离职的主要因素(员工满意度、绩效考核、每月工作时长、工作年限、薪资)以及员工是否已经离职。
首先导入数据,示例代码和输出如下:
![](https://epubservercos.yuewen.com/F4E5C2/23721471401889206/epubprivate/OEBPS/Images/Figure-P27_8230.jpg?sign=1740080128-GtXJse5W7RyOzjpwKvqHor4Wjoo7KgCN-0-017e93607c33f8f646f36a56c1e6532e)
由于这里的数据已经在Excel中清洗过,没有缺失值和异常值等,因此下面直接进行描述性统计分析,以进一步了解数据的分布情况,示例代码和输出如下:
![](https://epubservercos.yuewen.com/F4E5C2/23721471401889206/epubprivate/OEBPS/Images/Figure-P27_8232.jpg?sign=1740080128-TF9OwnJEHUFbOGTToelt6H4gWWSvbOqx-0-4cbc422fba53c00c445612ac696702e0)
此外,为了研究员工的平均每月工作时长与是否离职两者之间的关系,下面使用可视化的方法进行深入分析,示例代码如下:
![](https://epubservercos.yuewen.com/F4E5C2/23721471401889206/epubprivate/OEBPS/Images/Figure-P28_8234.jpg?sign=1740080128-HZwbFIDM8m5HUAyOr9Wm2vqplDdQenaV-0-6270314e14dc6c497bd8cae3bb6bf65e)
通过运行上面的代码,可以绘制出平均每月工作时长与是否离职的箱线图,如图1-19所示。可以看出离职人员的平均每月工作时长相对较长,也就是说加班可能会导致部分员工离职。
![](https://epubservercos.yuewen.com/F4E5C2/23721471401889206/epubprivate/OEBPS/Images/Figure-P28_1119.jpg?sign=1740080128-wDJxD8e5ZoFOiNKanYI0vU6dWRX9Si2x-0-c2b81c2124c4466deaa86ee76e4917c2)
图1-19 箱线图