Python爬取4027条脉脉职言,解读互联网人的苦与难!
发布时间:2019-01-31 13:17:04 所属栏目:教程 来源:量化小白H
导读:脉脉是一个实名职场社交平台。之前爬了脉脉职言版块,大概爬了4027条评论,本文对爬取过程给出详细说明,对于评论内容仅做可视化分析,之前存了一堆这方面的文章,今天一看全都404了。 爬虫 仍然使用python编程,对爬虫没兴趣的可以直接跳过看下部分,不影
爬下来之后,删掉超过一个字的评论,按词频确定大小,做词云图如下 用两个字概括你现在的工作|用2个字总结你的工作 2,5是一样的,爬下来合并到一起后分析。代码不再重复,实际上用上面那段代码,找到json地址后替换,任何一个话题下的评论都可以全爬到,删掉不是2个字的评论后根据词频作图。 使用SnowNLP对评论进行情感分析,最终4027条中,积极的有2196条,消极的有1831条。 积极 消极 模型对大部分评论的情感倾向判断的比较准确,小部分有误。 最后对所有评论提取关键词做词云收尾。 【编辑推荐】
点赞 0 (编辑:晋中站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |