匿名发帖人无法获取更细致的数据,但对于那些不匿名的发帖人,可以获取他们所在公司 信息,将发帖数按公司汇总,看各大企业发帖量,可以作为整体的一个估计。统计时已经考虑了公司名称输入不一致的情况,将蚂蚁金服、支付宝等替换成了阿里巴巴,京东金融等替换成京东,今日头条、抖音等替换为字节跳动,取发帖数TOP20。

可以看到,发帖人大多来自互联网企业,金融、地产等其他企业相对较少。
文本分析
对于转发、评论数、点赞数,因为有爬取时间上的差异,所以不好直接比较,给出评论数最多的前5条评论,看看大家最愿意参与的话题是什么。
- 用一个字概括一下你的2018年。(1659条评论)
- 【再就业求助帖】本人是刚被优化掉的知乎程序员,工作3年。比较想去BAT等大厂,希望贵厂HR们带公司认证来回复一下,发一发真实有hc的岗位,祝愿兄弟们都能找到新工作。(610条评论)
- 用两个字概括你现在的工作。(477条评论)
- 网易涨今年薪涨了50%.....公司是发财了吗?(458条评论)
- 用2个字总结你的工作。(415条评论)
1,4,5都是蛮有意思的问题,我们把1,4,5的评论都爬下来,做成词云,看看大家都在说些什么。
用一个字概括你的2018年
爬虫过程跟上面基本是一样的,找到json,不过这个可以爬到全部评论。
- # -*- coding: utf-8 -*-
- """
- Created on Fri Oct 19 18:50:03 2018
- """
- import urllib
- import requests
- from fake_useragent import UserAgent
- import json
- import pandas as pd
- import time
- # 发送get请求
- comment_api = 'https://maimai.cn/sdk/web/gossip/getcmts?gid=18606987&page={}&count=50&hotcmts_limit_count=1&u=206793936&channel=www&version=4.0.0&_csrf=38244DlN-X0iNIk6A4seLXFx6hz3Ds6wfQ0Y&access_token=1.9ff1c9df8547b2b2c62bf58b28e84b97&uid=%22MRlTFjf812rF62rOeDhC6vAirs3A3wL6ApgZu%2Fo1crA%3D%22&token=%22rE8q1xp6fZlxvwygWJn1UFDjrmMXDrSE2tc6uDKNIDZtRErng0FRwvduckWMwYzn8CKuzcDfAvoCmBm7%2BjVysA%3D%3D%22'
- """
- author:作者
- text:评论
- 、
-
- """
-
-
- #headers = { "User-Agent": UserAgent(verify_ssl=False).random,'Cookie':cookie}
- headers = { "User-Agent": UserAgent(verify_ssl=False).random}
- j = 0
- k = 0
- response_comment = requests.get(comment_api.format(0),headers = headers)
- json_comment = response_comment.text
- json_comment = json.loads(json_comment)
-
-
- num = json_comment['total']
- cols = ['author','text']
- dataall = pd.DataFrame(index = range(num),columns = cols)
-
- while j < num :
- n = json_comment['count']
- for i in range(n):
-
- dataall.loc[j,'author'] = json_comment['comments'][i]['name']
- dataall.loc[j,'text'] = json_comment['comments'][i]['text']
- j+= 1
- k += 1
- comment_api1 = comment_api.format(k)
-
- response_comment = requests.get(comment_api1,headers = headers)
- json_comment = response_comment.text
- json_comment = json.loads(json_comment)
- print('已完成 {}% !'.format(round(j/num*100,2)))
- time.sleep(3)
-
-
- dataall.to_excel('用一个字概括你的2018年.xlsx')
(编辑:晋中站长网)
【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!
|