“数据分析岗位”招聘情况分析!| Execl版
副标题[/!--empirenews.page--]
为了练习Excel技能,以及实践数据分析的流程。我用Web Scraper爬取了前程无忧4月16日全国发布的约2500条数据分析的职位信息,对数据分析岗位的招聘情况进行简单的分析。整个过程分为五个步骤:明确目的,观察数据,清洗数据,分析过程,得出结论。 Web Scraper的使用教程可参见宝器之前写的一篇文章: 成都做头发的地方?| 都给我爬爬爬爬爬下来! 01 明确目的 一切数据分析都是以业务为核心目的。本次项目的目的是通过数据分析岗位的招聘信息,包括地区分布、薪资水平、职位要求等,了解最新数据分析岗位的情况。 02 观察数据
首先看一下哪些字段数据可以去除。link为职位详情页链接,是爬取二级页面需要的;Releasedate是职位发布时间,都为4月16日,这两列可以删除。 JD:职位描述、address:公司地址、companyProfile:公司简介、keyword:职位关键字 虽然JD中的职位描述比info中信息更准确,但此次初级分析不对文本进行挖掘,所以先隐藏。尽量不删除数据,而是隐藏,保证原始数据的完整性,以后可能会用到。 03 清洗数据 检查数据缺失:Excel中可以通过选取该列,在屏幕的右下角查看计数,以此判别有无缺失数据,缺失值很大程度上影响分析结果。如果某一字段缺失数据较多(超过50%),分析过程中要考虑是否删除该字段,因为缺失过多就没有业务意义了。 salary、companyType、Field、conmpanySize都存在一小部分的缺失,不影响实际分析。 检查数据是否有脏数据:脏数据包括乱码,错位,重复值,未匹配数据,加密数据等。能影响到分析的都算脏数据,没有一致化也可以算。 数据标准结构:就是将特殊结构的数据进行转换和规整。 我们首先把 city、salary、info拆开。 先将salary拆成最高薪水和最低薪水。比较麻烦的是薪水的表示方式有“XX元/天”,“X-X万/年”,“X-X千/月”,“X-X万/月”,还有空白项。 以天结算的可能是兼职,数量很少直接删除。 空白项是因为岗位链接是公司主页,而不是前程无忧的职位详情页,所以没有爬取到。空白项大概占总量的2%,缺失值可以以业务知识或经验推测填充、可以同一指标的计算结果(均值、中位数、众数等)填充、也可以用回归、贝叶斯形式化方法的基于推理的工具或决策树归纳确定。这里简单采用均值填充。 现在只剩“X-X万/年”,“X-X千/月”,“X-X万/月”三种类型,我打算统一以“X-X千/月”表示。 先用筛选中的“文本筛选”选出所有以“万/年”表示薪资的项 使用分列,以 ‘ - ’ 为分隔符号把salary分为两列,再对最高薪水列使用LEFT和FIND结合,截取单位前的数字 换算一下单位,取小数点后一位,“X-X万/年”就转变为“X-X千/月”了 然后筛选出“X-X万/月”的项,同样分列---> 截取最高薪数字--->换算单位 最后筛选出“X-X千/月”的项,分列---> 截取最高薪数字,但不用换算单位了。最后得到的bottom和top列是公式,用复制-->粘贴为“值”,将公式转化为数值 (编辑:晋中站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |