加入收藏 | 设为首页 | 会员中心 | 我要投稿 晋中站长网 (https://www.0354zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 运营中心 > 网站设计 > 教程 > 正文

爬取两万多租房数据,告诉你广州房租现状

发布时间:2019-01-01 03:06:59 所属栏目:教程 来源:zone7
导读:概述 前言 统计结果 爬虫代码实现 爬虫分析实现 后记 前言 建议在看这篇文章之前,请看完这三篇文章,因为本文是依赖于前三篇文章的: 爬虫利器初体验(1) 听说你的爬虫又被封了?(2) 爬取数据不保存,就是耍流氓(3) 八月份的时候,由于脑洞大开,决定用 pyt

数据展示:

  1. # 展示饼图 
  2.    def showPie(self, title, attr, value): 
  3.        from pyecharts import Pie 
  4.        pie = Pie(title) 
  5.        pie.add("aa", attr, value, is_label_show=True) 
  6.        pie.render() 
  7.  
  8.    # 展示矩形树图 
  9.    def showTreeMap(self, title, data): 
  10.        from pyecharts import TreeMap 
  11.        data = data 
  12.        treemap = TreeMap(title, width=1200, height=600) 
  13.        treemap.add("深圳", data, is_label_show=True, label_pos='inside', label_text_size=19) 
  14.        treemap.render() 
  15.  
  16.    # 展示条形图 
  17.    def showLine(self, title, attr, value): 
  18.        from pyecharts import Bar 
  19.        bar = Bar(title) 
  20.        bar.add("深圳", attr, value, is_convert=False, is_label_show=True, label_text_size=18, is_random=True, 
  21.                # xaxis_interval=0, xaxis_label_textsize=9, 
  22.                legend_text_size=18, label_text_color=["#000"]) 
  23.        bar.render() 
  24.  
  25.    # 展示词云 
  26.    def showWorkCloud(self, content, image_filename, font_filename, out_filename): 
  27.        d = path.dirname(__name__) 
  28.        # content = open(path.join(d, filename), 'rb').read() 
  29.        # 基于TF-IDF算法的关键字抽取, topK返回频率最高的几项, 默认值为20, withWeight 
  30.        # 为是否返回关键字的权重 
  31.        tags = jieba.analyse.extract_tags(content, topK=100, withWeight=False) 
  32.        text = " ".join(tags) 
  33.        # 需要显示的背景图片 
  34.        img = imread(path.join(d, image_filename)) 
  35.        # 指定中文字体, 不然会乱码的 
  36.        wc = WordCloud(font_path=font_filename, 
  37.                       background_color='black', 
  38.                       # 词云形状, 
  39.                       mask=img, 
  40.                       # 允许最大词汇 
  41.                       max_words=400, 
  42.                       # 最大号字体,如果不指定则为图像高度 
  43.                       max_font_size=100, 
  44.                       # 画布宽度和高度,如果设置了msak则不会生效 
  45.                       # width=600, 
  46.                       # height=400, 
  47.                       margin=2, 
  48.                       # 词语水平摆放的频率,默认为0.9.即竖直摆放的频率为0.1 
  49.                       prefer_horizontal=0.9 
  50.                       ) 
  51.        wc.generate(text) 
  52.        img_color = ImageColorGenerator(img) 
  53.        plt.imshow(wc.recolor(color_func=img_color)) 
  54.        plt.axis("off") 
  55.        plt.show() 
  56.        wc.to_file(path.join(d, out_filename)) 
  57.  
  58.    # 展示 pyecharts 的词云 
  59.    def showPyechartsWordCloud(self, attr, value): 
  60.        from pyecharts import WordCloud 
  61.        wordcloud = WordCloud(width=1300, height=620) 
  62.        wordcloud.add("", attr, value, word_size_range=[20, 100]) 
  63.        wordcloud.render() 

后记

(编辑:晋中站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读