satisfaction_level--满意度,last_evaluation--最后一次评估,number_project--参与项目数量,average_montly_hours--每月平均工作时间,time_spend_company--公司停留时间,Work_accident--工作事故次数,left--是否离职,promotion_last_5years--过去五年升值状况,sales--工种,salary--工资。
而且简单的观测了一下,没有发现缺失值,那么我就可以直接进入数据分析阶段了。
数据预处理
根据每一个特征的数值情况,我们可以将不少特征因子化,方便后期做不同类别的差异分析。
- hr$sales<-as.factor(hr$sales)
- hr$salary<-as.factor(hr$salary)
- hr$left<-as.factor(hr$left)
- hr$Work_accident<-as.factor(hr$Work_accident)
- hr$left<-recode(hr$left,'1'="yes",'0'="no")
- hr$promotion_last_5years<-as.factor(hr$promotion_last_5years)
看的出大部分数据都是数值型的,我们使用相关性来衡量不同变量之间的相关性高低:
- cor.hr<-hr %>% select(-sales,-salary)
- cor.hr$Work_accident<-as.numeric(as.character(cor.hr$Work_accident))
- cor.hr$promotion_last_5years<-as.numeric(as.character(cor.hr$promotion_last_5years))
- cor.hr$left<-as.numeric(as.character(cor.hr$left))
- corrplot(corr = cor(cor.hr),type = "lower",method = "square",title="变量相关性",order="AOE")

直观的来看,是否离职和满意度高低就有很高的关联性啊。
EDA
- ggplot(group_by(hr,sales),aes(x=sales,fill=sales))+geom_bar(width = 1)+coord_polar(theta = "x")+ggtitle("不同职业的人数")
- ggplot(hr,aes(x=sales,y=satisfaction_level,fill=sales))+geom_boxplot()+ggtitle("不同职业的满意度")+stat_summary(fun.y = mean,size=3,color='white',geom = "point")+
- theme(legend.position = "none")
- ggplot(hr,aes(x=sales,y=satisfaction_level,fill=left))+geom_boxplot()+ggtitle("不同职业的满意度")
- ggplot(hr,aes(x=sales,y=average_montly_hours,fill=left))+geom_boxplot()+ggtitle("不同职业的工作时长")
- ggplot(hr,aes(x=sales,y=number_project,fill=left))+geom_boxplot()+ggtitle("不同职业的项目情况")
 (编辑:晋中站长网)
【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!
|