加入收藏 | 设为首页 | 会员中心 | 我要投稿 晋中站长网 (https://www.0354zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长学院 > PHP教程 > 正文

爬虫学习

发布时间:2022-10-15 07:31:24 所属栏目:PHP教程 来源:网络
导读: 我主用 PHP,但是我写爬虫依然不会选择用 PHP,而是用 python。
Python 有 scrapy 这样成熟的框架,我们大可不必自己从0开始即使从0开始,以 Python 简洁的语法和一大波成熟的库,写起来相

我主用 PHP,但是我写爬虫依然不会选择用 PHP,而是用 python。

Python 有 scrapy 这样成熟的框架,我们大可不必自己从0开始即使从0开始,以 Python 简洁的语法和一大波成熟的库,写起来相当的快。PHP 语法,你懂的。我试过写爬虫,体验还是不如 Python的Python 数据处理个人认为比较方便,虽然 PHP 处理 DOM 也很挺方便的

Pthon 唯一不方便的大概是编码处理了。

scrapy是个很成熟的爬虫库,成熟的原因;

管理cookiecss和xpath的选择器并行爬取link抽取

等等,还有一大堆插件,最重要的是易于扩展php爬虫,象处理403之类的状态加个middelware就解决了

首先,爬虫抓数据,遇到最多也最烦的问题,不是抓取,而是处理抓的过程中出现的问题; 一般需要使用ip代理来突破防采集; 而使用ip代理后,则需要控制ip代理连接超时时间,是否复用tcp连接,控制所有并发的最大超时时间等;

抓取需要并发,缓存数据以及再存储到数据库中还是需要并发;也可能用到消息队列,微服务等等;

php生态圈更完整的是在web领域;而在这些方面,php要做到高性能且稳定的抓取,就有点麻烦了; 所以,别拿一段没有“意外”的代码来表达php的抓取能力;只要是抓取的,大多需要高并发,高写入和程序能够持续稳定的运行(不能遇到点问题脚本挂掉,半夜起来启动脚本吧);

并非是说PHP可以写爬虫就得用它写爬虫,你叫C++情何以堪。在爬虫这块,Python为何如此倍受推崇,个人认为主要是各类优秀爬虫框架满足需求,不需要每个人从零开始造轮子。然后就是爬虫的应用是什么?数据分析,数据处理呀。。必然是Python相比PHP更有优势的地方。

我自己觉得吧,虽然PHP是最好的语言,但是最重要的还是因为程序猿最大的美得——懒,PHP还得自己造轮子,Python下已经有很成熟的轮子了,那么作为一个有良好美得的程序猿自然就都用Python啦,要是题主造出个比Python爬虫还好用的轮子保证大家都用PHP啦

(编辑:晋中站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!